설문이 끝나고 데이터를 받으면
많은 분들이 바로 분석으로 넘어가려고 합니다.
하지만 실제로 가장 많이 틀리는 구간은
이 단계입니다.
👉 데이터 정리 (전처리)
이걸 어떻게 하느냐에 따라
결과 자체가 달라질 수 있습니다.
1️⃣ 데이터 정리는 ‘정리’가 아니라 ‘판단’입니다
많이 하는 착각입니다.
👉 “엑셀 정리만 잘하면 된다” ❌
실제로는
- 어떤 데이터를 살릴지
- 무엇을 제외할지
이걸 결정하는 단계입니다.
즉, 단순 작업이 아니라 분석의 시작점
2️⃣ 가장 많이 틀리는 포인트 ① : 결측값 처리

👉 거의 무조건 등장하는 문제
응답 안 한 문항
중간 이탈
비어 있는 값
이걸 그냥 넘기면
👉 결과 왜곡 가능성 있음 ⚠️
✔ 기본 방법 ① : 리스트와이즈 삭제
👉 가장 많이 쓰는 방식
- 결측 있는 행 전체 삭제
- SPSS 기본 설정
- 적용이 간단함
✔ 언제 쓰면 되나
- 결측 비율이 낮을 때 (보통 5% 이하)
- 특정 패턴 없이 랜덤하게 빠진 경우
👉 이 조건이면 비교적 안전한 편입니다
❗ 주의할 점
- 표본 수 감소
- 특정 집단이 같이 빠질 경우 결과 왜곡 가능
✔ 방법 ② : 평균값 대체

이상치를 보면
대부분 이렇게 생각합니다.
👉 “이건 튀니까 빼야겠다” ❌
하지만 기준 없이 제거하면
👉 결과가 바뀔 수 있습니다
❗ 주의할 점
- 변동성 감소
- 데이터가 실제보다 “균일하게” 보일 수 있음
- 많이 사용할수록 왜곡 가능성 증가 ⚠️
3️⃣ 가장 많이 틀리는 포인트 ② : 이상치 처리

이상치를 보면
대부분 이렇게 생각합니다.
👉 “이건 튀니까 빼야겠다” ❌
하지만 기준 없이 제거하면
👉 결과가 바뀔 수 있습니다
✔ 이렇게 먼저 확인해야 합니다
- 입력 오류인지
- 실제 가능한 값인지
- 특정 집단에서만 발생하는지
👉 단순 제거가 아니라 이유를 먼저 확인
4️⃣ 가장 많이 틀리는 포인트 ③ : 변수 코딩
은근히 많이 틀리는 부분입니다.
- 1 = 남자 / 2 = 여자
- 0 = 없음 / 1 = 있음
이 코딩이 잘못되면
👉 해석이 완전히 뒤집힙니다 ⚠️
👉 특히 회귀분석에서는 코딩 방향이 결과 해석에 직접 영향
📌 이렇게 보면 됩니다
- 결측값 → 그냥 삭제 ❌ / 조건 보고 판단 ⭕
- 이상치 → 무조건 제거 ❌ / 이유 확인 ⭕
- 변수 코딩 → 사소해 보여도 핵심
👉 전부 “판단의 문제”



