— 분석 전에 반드시 확인해야 하는 단계
설문 데이터를 정리하다 보면
빠지지 않고 등장하는 문제가 있습니다.
바로 결측값(missing data)입니다.
- 일부 문항이 비어 있는 경우
- 특정 응답자가 몇 개 문항을 건너뛴 경우
이러한 결측값은
분석 결과에 영향을 줄 수 있기 때문에
적절한 처리 과정이 필요합니다.
1️⃣ 결측값이 생기는 이유부터 확인해야 합니다
결측값은 단순한 오류가 아니라
응답 과정에서 발생한 결과입니다.
대표적인 원인은 다음과 같습니다.
- 응답자가 문항을 이해하지 못한 경우
- 민감한 질문이라 답변을 회피한 경우
- 설문 중간 이탈
- 기술적인 오류
결측값을 처리하기 전에
왜 발생했는지 파악하는 것이 중요합니다.

2️⃣ 결측값이 많지 않다면 단순 제거도 가능합니다
일반적으로 결측값 비율이 매우 낮다면
해당 데이터를 제거하는 방식(listwise deletion)을 사용할 수 있습니다.
예를 들어
- 전체 데이터의 5% 이하
- 특정 문항에만 일부 결측 존재
이 경우에는 큰 문제가 되지 않을 수 있습니다.
하지만 결측이 특정 집단에 몰려 있다면
단순 제거는 편향을 만들 수 있습니다.
3️⃣ 평균값 대체는 신중하게 사용해야 합니다
결측값을 처리할 때
평균값으로 대체하는 방법(mean substitution)이 자주 사용됩니다.
하지만 이 방법은
- 데이터의 변동성을 줄이고
- 결과를 왜곡할 가능성이 있습니다.
특히 결측이 많은 경우에는
평균값 대체는 적절하지 않을 수 있습니다.

4️⃣ 중요한 것은 ‘결측 패턴’입니다
결측값은 단순히 개수보다
어떤 패턴으로 발생했는지가 더 중요합니다.
예를 들어
- 특정 문항에서만 많이 발생하는지
- 특정 집단에서 집중적으로 발생하는지
이러한 패턴을 확인하면
결측값이 단순한 우연인지
구조적인 문제인지 판단할 수 있습니다.

정리
결측값 처리는
단순히 데이터를 채우거나 제거하는 과정이 아닙니다.
중요한 것은
- 결측이 왜 발생했는지 이해하고
- 데이터 구조를 고려하여
- 적절한 방법을 선택하는 것입니다.
설문 데이터는
완벽하게 채워진 숫자가 아니라
응답자의 행동이 반영된 결과입니다.
결측값을 어떻게 처리하느냐에 따라
연구 결과의 신뢰도는 크게 달라질 수 있습니다.



