논문을 쓰다 보면 이런 순간이 옵니다.
이 변수… 넣어야 하나?
이 변수 빼면 교수님이 뭐라고 하실까?
변수가 너무 많으면 안 좋은 거 아닌가…?🤯
결국 분석을 하다 보면, 모형에 변수를 얼마나 넣어야 하는지가 가장 어려운 문제가 됩니다.
특히 초보 연구자일수록
👉 일단 다 넣자는 선택을 하게 되죠.
하지만 변수는 많다고 좋은 게 아닙니다.
이번 글에서는
👉 논문에서 변수를 어떻게 선택해야 하는지
👉 왜 ‘많은 변수’가 오히려 위험한지
정리해볼게요.

🔍 변수는 많을수록 좋은가?
직관적으로 보면 이렇게 생각하기 쉽습니다.
- 변수 많이 넣으면 설명력이 좋아질 것 같다
- 빠진 변수 있으면 지적받을 것 같다
- 다 넣어야 논문이 탄탄해 보일 것 같다
하지만 통계적으로는 정반대입니다.
👉 변수는 많아질수록 모델은 불안정해집니다.
❗ 변수 과잉(overfitting)의 함정
회귀분석에서 변수를 많이 넣으면 생기는 문제는 크게 3가지입니다.
1️⃣ 다중공선성(multicollinearity)
독립변수들끼리 서로 비슷한 내용을 설명하면
계수는 불안정해지고, 해석은 불가능해집니다.
- β값이 갑자기 뒤집힘
- 유의하던 변수가 갑자기 비유의
- 방향이 논리와 반대로 나옴
👉 이건 데이터가 틀린 게 아니라, 변수가 너무 많아서 생기는 문제입니다.
2️⃣ 설명력 착시
변수를 많이 넣으면 R²는 거의 무조건 올라갑니다.
하지만 중요한 건 R²가 아니라,
👉 조정된 결정계수(Adjusted R²)
변수를 추가했는데 Adjusted R²가 안 올라가면?
👉 그 변수는 사실상 쓸모없는 변수입니다.
3️⃣ 해석 불가능한 모델
변수가 많아질수록 논문에서 이런 상황이 생깁니다.
- 어떤 변수가 중요한지 말할 수 없음
- 결과 설명이 길어짐
- 논문의 메시지가 흐려짐
논문에서 가장 위험한 건
👉 그래서 뭐가 중요한데?라는 질문에 답을 못 하는 상태입니다.
📌 논문에서 변수를 선택하는 기준 3가지
1️⃣ 이론적 근거가 있는가?
논문에서 변수를 넣는 가장 강력한 이유는
👉 이론입니다.
✔️ 선행연구에서 반복적으로 등장한 변수
✔️ 이론적으로 설명 가능한 변수
반대로,
❌ 그냥 넣어본 변수
❌ 데이터에 있으니까 넣은 변수
→ 논문에서 가장 많이 지적되는 유형입니다.
2️⃣ 연구 질문과 직접 연결되는가?
모든 변수는 반드시 이 질문에 답해야 합니다.
이 변수가 없으면 연구 질문이 설명이 안 되는가?
만약 없어도 된다면?
👉 과감히 빼는 게 맞습니다.
논문은 ‘많이 넣는 글’이 아니라
👉 ‘필요한 것만 남기는 글’입니다.
3️⃣ 통제변수와 설명변수를 구분했는가?
많은 대학원생들이 여기서 헷갈립니다.
- 독립변수 = 설명하고 싶은 변수
- 통제변수 = 제거하고 싶은 변수
통제변수는 많다고 좋은 게 아닙니다.
👉 통제변수는 필요한 만큼만 넣는 게 원칙입니다.

⚠️ 초보 연구자가 가장 많이 하는 실수
❌ “일단 다 넣고, 유의한 것만 쓰자”
이건 논문에서 가장 위험한 접근입니다.
왜냐하면,
- 데이터에 맞춰 변수를 선택하는 것
- 이론이 아니라 결과 중심 설계
👉 심사에서는 거의 100% 지적됩니다.
❌ 유의하지 않은 변수는 의미 없다
논문에서는
유의하지 않은 변수도 충분히 의미가 있습니다.
왜냐하면,
👉 영향이 없다는 결과도 하나의 결과이기 때문입니다.
✍️ 논문에서 가장 이상적인 변수 구성
논문에서 가장 안정적인 구조는 보통 이렇습니다.
- 핵심 독립변수: 1~3개
- 매개/조절변수: 1~2개
- 통제변수: 3~6개 수준
👉 이 정도면 대부분 논문에서 충분히 설득력 있는 모델입니다.
변수가 15개, 20개 넘어가면?
👉 거의 확실히 과잉모형(overfitting)입니다.

✨ 정리하면
✨ 변수는 많을수록 좋은 게 아니라, 설명 가능할수록 좋은 것
✨ 논문은 데이터가 아니라 이론이 중심
✨ 좋은 모델은 복잡한 모델이 아니라 ‘말할 수 있는 모델’
논문에서 진짜 실력은
얼마나 많이 넣었는가가 아니라
👉 얼마나 잘 뺐는가에서 드러납니다.



