회귀분석을 진행하다 보면
한 번쯤은 이 상황을 만나게 됩니다.
👉 VIF (다중공선성)
그런데 문제는 이겁니다.
- VIF = 2 → 괜찮은 것 같고
- VIF = 10 → 위험하다는 건 알겠는데
- VIF = 4~6 정도 나오면…?
이때부터 애매해집니다.
“이거 써도 되는 건가요?”
“논문에서 문제 될까요?”
1️⃣ VIF는 무엇을 보는 지표일까요?

VIF는 간단히 말하면
👉 독립변수들끼리 얼마나 겹치는지 보는 지표입니다.
즉,
- 변수 A와 B가 너무 비슷하면
👉 공선성 발생
👉 VIF 상승
결국, “이 변수들이 서로 설명을 중복하고 있는가?”를 보는 것입니다.
2️⃣ 기준은 있지만, 절대적인 건 아닙니다
일반적으로 많이 쓰는 기준은 다음과 같습니다.
- VIF < 5 → 문제 없음
- VIF 5~10 → 주의 필요
- VIF > 10 → 문제 있음
하지만 중요한 포인트는
👉 이건 ‘절대 기준’이 아닙니다
3️⃣ 애매한 구간 (3~6)에서 고민이 시작됩니다

실제 연구에서는
가장 많이 나오는 구간이 이겁니다.
👉 VIF 3~6
이때 선택은 보통 세 가지입니다.
- 그냥 사용한다
- 일부 변수 제거
- 구조 다시 설계
👉 정답은 하나가 아니라, 상황에 따라 다릅니다
4️⃣ 이럴 때는 그냥 써도 되는 경우
✔ 이론적으로 꼭 필요한 변수일 때
✔ 선행연구에서도 동일하게 사용된 경우
✔ 변수 제거 시 연구 의미가 무너지는 경우
👉 이 경우는 VIF가 조금 높아도 유지하는 경우 많습니다
5️⃣ 이럴 때는 다시 봐야 합니다
❗ 변수들이 거의 같은 개념일 때
❗ 계수 방향이 이상하게 바뀔 때
❗ 유의성이 불안정할 때
👉 이건 단순 수치 문제가 아니라
👉 모형 구조 문제일 가능성
📌 이렇게 보면 됩니다
- VIF < 5 → 대부분 안전
- 5~10 → 상황 판단
- 10 → 구조 점검 필요
👉 핵심은 “판단”이지 “숫자”가 아님
👀 많이 틀리는 포인트
무조건 제거 ❌
무조건 유지 ❌
숫자만 보고 판단 ❌
👉 다 위험




