뉴스레터 가입하기

이 양식을 작성하려면 브라우저에서 JavaScript를 활성화하십시오.
가입경로
여기에 입력해주세요.
Edit Template

통제변수 넣었는데 해석이 안 된다면?

명목변수 때문일 확률이 큽니다

회귀분석을 하다 보면, 특히 위계적 회귀나 다중 회귀를 할 때
통제변수를 자연스럽게 넣게 됩니다.

성별, 연령, 지역, 전공, 직군, 학교유형 같은 변수들이죠.

문제는 여기서부터입니다.

분석은 돌아갔는데
결과를 어떻게 써야 할지 모르겠고
계수 해석이 말이 안 되는 느낌이 든다.

이런 경험, 한 번쯤 있으셨을 겁니다.

그 원인 중 하나가 바로 명목변수를 잘못 넣은 경우입니다.


명목변수도 통제변수로 쓸 수는 있습니다

먼저 결론부터 정리하면,
명목변수는 통제변수로 사용할 수 있습니다.

그리고 실제 논문에서도 굉장히 많이 씁니다.

지역, 학교유형, 기관유형, 직군, 전공계열처럼
집단 간 차이를 만들어낼 수 있는 변수들은
통제변수로서 충분한 의미가 있습니다.

특히 교육·조직·정책·지역 연구에서는
명목변수 통제 여부 자체가 논문의 신뢰도를 좌우하기도 합니다.

문제는 ‘넣느냐 마느냐’가 아니라 ‘어떻게 넣느냐’ 입니다.


가장 흔하고, 가장 치명적인 실수

명목변수를 설문지에 이렇게 코딩하는 경우, 정말 많이 봅니다.

  • 서울 = 1
  • 경기 = 2
  • 충청 = 3
  • 전라 = 4

그리고 이 상태 그대로 회귀분석에 투입합니다.

이때 회귀분석이 가정하는 해석은 딱 하나입니다.

“지역 값이 1만큼 증가할 때, 종속변수는 β만큼 변한다”

여기서 바로 문제가 생깁니다.

서울 → 경기 → 충청 → 전라
이 순서에 크기, 방향, 간격이 존재하나요?

없습니다.

지역에는
‘증가’ 개념도 없고
‘거리’ 개념도 없고
‘방향성’도 없습니다.

그래서 이 회귀계수는 해석 자체가 불가능합니다.

논문 심사에서 거의 100% 지적되는 포인트이기도 합니다.


왜 이런 문제가 생길까요?

선형회귀모형은 기본적으로 다음 형태를 가정합니다.

Y = β₀ + β₁X₁ + β₂X₂ + … + ε

이 식이 전제하는 핵심은 하나입니다.

X가 1만큼 증가할 때, Y가 선형적으로 변할 수 있어야 한다는 것

즉, 회귀분석에 들어가는 변수에는
최소한 다음 중 일부가 존재해야 합니다.

  • 크기
  • 방향
  • 간격

명목변수는 이 조건을 하나도 충족하지 않습니다.

그래서 그대로 넣는 순간,
“계산은 되지만 해석은 안 되는 결과”가 나옵니다.


명목변수를 올바르게 넣는 방법: 더미변수

해결 방법은 단순합니다.

명목변수는 반드시 더미변수(dummy variable)로 변환해서 사용해야 합니다.

더미변수는

  • 해당 범주에 속하면 1
  • 아니면 0

으로 구성된 이진 변수입니다.

예를 들어 지역이
서울 / 경기 / 충청 / 전라 라면

전라를 기준범주로 설정하고
다음과 같이 만듭니다.

  • 지역_서울 (전라 대비 서울)
  • 지역_경기 (전라 대비 경기)
  • 지역_충청 (전라 대비 충청)

이때 반드시 기억해야 할 원칙이 있습니다.

✔️ 범주 수 – 1개만 투입

범주가 4개라면 더미는 3개만 넣습니다.
기준범주는 반드시 하나 제외해야 합니다.

모든 범주를 다 넣으면
완전다중공선성이라는 치명적인 오류가 발생합니다.


통제변수에서 가장 중요한 개념: 목적

여기서 정말 많이 헷갈리는 부분이 있습니다.

“통제변수는 중요하지 않으니까 대충 넣어도 되는 거 아닌가요?”

전혀 아닙니다.

통제변수의 의미는
중요하지 않아서 넣는 변수가 아니라
영향이 있을 수 있기 때문에 고정시키는 변수입니다.

즉, 통제변수의 목적은
설명이나 주장 ❌
효과 제거 ⭕ 입니다.

그래서 명목변수를 통제할 때는 ‘잘 설명하려고’ 하면 오히려 문제가 됩니다.


명목변수 통제 시 해석에서 주의할 점

1️⃣ 더미계수의 유의성에 집착하지 말 것

  • 유의하다 → 집단 간 차이가 있다
  • 유의하지 않다 → 차이가 없다

둘 다 통제변수로서는 문제 없습니다.

중요한 건 항상 이것입니다.

주요 독립변수의 계수가
통제 전후로 얼마나 안정적인가?

2️⃣ 방향성 해석은 금물

명목변수에는 증가·감소 개념이 없습니다.

  • ❌ “서울에서 지방으로 갈수록 증가한다”
  • ❌ “지역 값이 클수록 영향이 커진다”

가능한 해석은 오직 하나입니다.

기준범주 대비 차이가 있다 / 없다

3️⃣ 더미가 많아질수록 위험도 커진다

지역이 10개면 더미는 9개입니다.

표본 수가 충분하지 않다면
자유도 감소, 계수 불안정, 과적합 문제가 생깁니다.

이 경우에는

  • 지역 통합(권역화)
  • 다층모형(HLM) 같은 대안을 고민해야 합니다.

논문에서는 이렇게 쓰면 충분합니다

통제변수는 결과가 아니라 조건입니다.

그래서 논문에서는 과하게 설명할 필요도 없습니다.

예를 들면,

“지역 간 차이를 통제하기 위해 지역 더미변수를 포함하였으며,
해당 변수를 통제한 이후에도 주요 독립변수의 효과는 유의하게 유지되었다.”

혹은 더 간단하게,

“본 분석에서는 지역 효과를 통제하였다.”

이 정도면 충분합니다.

❌ “지역 변수는 유의하지 않아 통제변수로서 의미가 없다”
이 문장은 절대 쓰시면 안 됩니다.


정리하면

  • 명목변수는 통제변수로 사용 가능
  • 반드시 더미변수로 변환해야 함
  • 해석의 목적은 설명이 아니라 효과 제거
  • 방향성·증가 해석은 금물

통제변수를
“일단 다 넣고 보자” 식으로 처리하면
결과 해석이 무너지고,
연구의 논리도 흐려집니다.

특히 명목변수는 제대로 넣으면 논문의 신뢰도를 높이지만,
잘못 넣으면 기초 통계 이해 부족으로 보일 수 있는 변수
입니다.

조금만 신경 써도 충분히 피할 수 있는 실수이니, 꼭 한 번 점검하고 넘어가세요.

K-Grad​

한국 대학원생 협회에서는 대학원생들을 위한 수많은 정보와 혜택, 그리고 강의를 제공합니다.

Features

Most Recent Posts

무료회원가입

무료회원가입 후 혜택받으세요!

Category

대학원생을 위한 유일한 협회!

Help

Copyright

Privacy Policy

Mailing List

© 2023 Created with K-GRAD