뉴스레터 가입하기

이 양식을 작성하려면 브라우저에서 JavaScript를 활성화하십시오.
가입경로
여기에 입력해주세요.
Edit Template

초보 연구자가 통계분석을 할 때?

논문을 쓰다 보면 이런 순간이 옵니다.

이 변수… 넣어야 하나?
이 변수 빼면 교수님이 뭐라고 하실까?
변수가 너무 많으면 안 좋은 거 아닌가…?🤯

결국 분석을 하다 보면, 모형에 변수를 얼마나 넣어야 하는지가 가장 어려운 문제가 됩니다.

특히 초보 연구자일수록
👉 일단 다 넣자는 선택을 하게 되죠.

하지만 변수는 많다고 좋은 게 아닙니다.

이번 글에서는
👉 논문에서 변수를 어떻게 선택해야 하는지
👉 왜 ‘많은 변수’가 오히려 위험한지
정리해볼게요.


🔍 변수는 많을수록 좋은가?

직관적으로 보면 이렇게 생각하기 쉽습니다.

  • 변수 많이 넣으면 설명력이 좋아질 것 같다
  • 빠진 변수 있으면 지적받을 것 같다
  • 다 넣어야 논문이 탄탄해 보일 것 같다

하지만 통계적으로는 정반대입니다.

👉 변수는 많아질수록 모델은 불안정해집니다.


❗ 변수 과잉(overfitting)의 함정

회귀분석에서 변수를 많이 넣으면 생기는 문제는 크게 3가지입니다.

1️⃣ 다중공선성(multicollinearity)

독립변수들끼리 서로 비슷한 내용을 설명하면
계수는 불안정해지고, 해석은 불가능해집니다.

  • β값이 갑자기 뒤집힘
  • 유의하던 변수가 갑자기 비유의
  • 방향이 논리와 반대로 나옴

👉 이건 데이터가 틀린 게 아니라, 변수가 너무 많아서 생기는 문제입니다.


2️⃣ 설명력 착시

변수를 많이 넣으면 R²는 거의 무조건 올라갑니다.

하지만 중요한 건 R²가 아니라,

👉 조정된 결정계수(Adjusted R²)

변수를 추가했는데 Adjusted R²가 안 올라가면?

👉 그 변수는 사실상 쓸모없는 변수입니다.


3️⃣ 해석 불가능한 모델

변수가 많아질수록 논문에서 이런 상황이 생깁니다.

  • 어떤 변수가 중요한지 말할 수 없음
  • 결과 설명이 길어짐
  • 논문의 메시지가 흐려짐

논문에서 가장 위험한 건
👉 그래서 뭐가 중요한데?라는 질문에 답을 못 하는 상태입니다.


📌 논문에서 변수를 선택하는 기준 3가지

1️⃣ 이론적 근거가 있는가?

논문에서 변수를 넣는 가장 강력한 이유는
👉 이론입니다.

✔️ 선행연구에서 반복적으로 등장한 변수
✔️ 이론적으로 설명 가능한 변수

반대로,

❌ 그냥 넣어본 변수
❌ 데이터에 있으니까 넣은 변수

→ 논문에서 가장 많이 지적되는 유형입니다.


2️⃣ 연구 질문과 직접 연결되는가?

모든 변수는 반드시 이 질문에 답해야 합니다.

이 변수가 없으면 연구 질문이 설명이 안 되는가?

만약 없어도 된다면?

👉 과감히 빼는 게 맞습니다.

논문은 ‘많이 넣는 글’이 아니라
👉 ‘필요한 것만 남기는 글’입니다.


3️⃣ 통제변수와 설명변수를 구분했는가?

많은 대학원생들이 여기서 헷갈립니다.

  • 독립변수 = 설명하고 싶은 변수
  • 통제변수 = 제거하고 싶은 변수

통제변수는 많다고 좋은 게 아닙니다.

👉 통제변수는 필요한 만큼만 넣는 게 원칙입니다.


⚠️ 초보 연구자가 가장 많이 하는 실수

❌ “일단 다 넣고, 유의한 것만 쓰자”

이건 논문에서 가장 위험한 접근입니다.

왜냐하면,

  • 데이터에 맞춰 변수를 선택하는 것
  • 이론이 아니라 결과 중심 설계

👉 심사에서는 거의 100% 지적됩니다.


❌ 유의하지 않은 변수는 의미 없다

논문에서는
유의하지 않은 변수도 충분히 의미가 있습니다.

왜냐하면,

👉 영향이 없다는 결과도 하나의 결과이기 때문입니다.


✍️ 논문에서 가장 이상적인 변수 구성

논문에서 가장 안정적인 구조는 보통 이렇습니다.

  • 핵심 독립변수: 1~3개
  • 매개/조절변수: 1~2개
  • 통제변수: 3~6개 수준

👉 이 정도면 대부분 논문에서 충분히 설득력 있는 모델입니다.

변수가 15개, 20개 넘어가면?

👉 거의 확실히 과잉모형(overfitting)입니다.


✨ 정리하면

✨ 변수는 많을수록 좋은 게 아니라, 설명 가능할수록 좋은 것
✨ 논문은 데이터가 아니라 이론이 중심
✨ 좋은 모델은 복잡한 모델이 아니라 ‘말할 수 있는 모델’

논문에서 진짜 실력은
얼마나 많이 넣었는가가 아니라
👉 얼마나 잘 뺐는가에서 드러납니다.

K-Grad​

한국 대학원생 협회에서는 대학원생들을 위한 수많은 정보와 혜택, 그리고 강의를 제공합니다.

Features

Most Recent Posts

무료회원가입

무료회원가입 후 혜택받으세요!

Category

대학원생을 위한 유일한 협회!

Help

Copyright

Privacy Policy

Mailing List

© 2023 Created with K-GRAD