— 삭제 vs 대체, 무엇이 맞을까요?
설문 데이터를 정리하다 보면
거의 무조건 만나게 됩니다.
👉 결측값 (missing data)
- 응답 안 한 문항
- 중간 이탈
- 일부 값 비어 있음
이걸 어떻게 처리하느냐에 따라
👉 분석 결과가 바뀔 수도 있습니다
1️⃣ 결측값, 무조건 지우면 안 됩니다
많이 하는 실수입니다.
👉 “비어 있으니까 그냥 삭제”
이렇게 하면
- 표본 수 감소
- 데이터 왜곡 가능
👉 특히 특정 집단만 빠지면
👉 결과가 틀어집니다

2️⃣ 가장 기본 방법 ①: 리스트와이즈 삭제
👉 가장 많이 쓰는 방법
✔ 특징
- 결측 있는 행 전체 삭제
- 간단함
- SPSS 기본 설정
✔ 언제 쓰면 되나
- 결측 비율 적을 때 (보통 5% 이하)
- 특정 패턴 없을 때
👉 이 경우는 안전
❗ 문제
- 표본 줄어듦
- 데이터 손실 발생
3️⃣ 방법 ②: 평균값 대체
👉 결측값을 평균으로 채움
예:
- 평균 3.5
→ 결측 = 3.5 입력
✔ 장점
- 데이터 유지
- 간단
❗ 단점 (중요)
- 변동성 감소
- 결과 왜곡 가능
👉 많이 쓰면 위험

4️⃣ 방법 ③: 고급 방법 (참고)
논문에서 가끔 나옵니다.
- 회귀 대체
- 다중 대체 (Multiple Imputation)
👉 고급 분석에서 사용
5️⃣ 진짜 중요한 건 “패턴”입니다
결측값은
👉 개수보다 이유가 중요합니다
✔ 정상적인 결측
- 실수
- 일부 누락
👉 문제 없음
❌ 문제 있는 결측
- 특정 집단만 결측 많음
- 특정 문항만 비어 있음
👉 이건 구조 문제
6️⃣ 논문에서는 이렇게 쓰면 됩니다
✔ 예문
결측값은 전체의 5% 미만으로 나타나 리스트와이즈 삭제를 적용하였다.
또는
결측값은 평균값으로 대체하여 분석을 진행하였다.
👉 간단하게, 명확하게

🔥 핵심 정리
결측값 처리 기준
👉 적으면 삭제
👉 많으면 고민
👉 패턴 있으면 반드시 확인
👉 “결측값은 지우는 문제가 아니라, 이해하는 문제입니다”
👀 많이 틀리는 포인트
- 무조건 삭제 ❌
- 무조건 평균 대체 ❌
- 이유 없이 처리 ❌
👉 다 위험
👉 결측값은 데이터의 힌트입니다



