설문조사를 드디어 끝냈습니다.
응답 수도 채웠고, 엑셀 파일도 받았고,
이제 SPSS 열어서 분석만 하면 될 것 같죠?
그런데 이 타이밍에 제일 많이 나오는 말이 이겁니다.
분석은 했는데 결과가 이상하다
데이터부터 다시 보자
이유는 단순합니다.
👉 설문이 끝났다고, 데이터가 바로 분석 가능한 상태는 아니기 때문이에요.
1️⃣ 설문 완료 ≠ 분석 준비 완료
설문조사가 끝났다는 건
응답이 모였다는 뜻이지,
분석해도 된다는 뜻은 아닙니다.
분석 전에 반드시 거쳐야 하는 단계가 있어요.
- 응답이 말이 되는지
- 값이 제대로 들어갔는지
- 분석 가정을 심각하게 깨고 있진 않은지
이걸 확인하지 않으면, 분석은 돌아가도 해석은 무너집니다.
2️⃣ 제일 먼저 봐야 할 것: 응답 분포
가장 먼저 해야 할 건 아주 단순합니다.
👉 빈도표부터 보기
- 특정 응답만 몰려 있지는 않은가?
- 1번이나 5번만 찍은 사람이 유난히 많은가?
- 선택지 중 아예 안 찍힌 항목은 없는가?
이 단계에서 이런 데이터가 자주 보입니다.
- 전 문항 동일 응답 (1,1,1,1,1…)
- 말도 안 되는 값 (99, 0, -1 등)
- 설문 시간 1분 컷인데 문항 수는 60개
📌 이런 데이터는 분석을 망치는 주범입니다.
📌 “응답이 있으니까 써야 한다”는 생각은 버려야 해요.

3️⃣ 결측치, 무시하면 나중에 더 크게 돌아옵니다
데이터를 보면 꼭 이런 상황이 나옵니다.
- 어떤 문항만 유독 비어 있음
- 특정 집단에서 결측이 집중됨
이때 하면 안 되는 생각이 이거예요.
❌ 몇 개 안 되니까 그냥 분석하자
결측치는 숫자가 아니라 ‘이유’를 봐야 합니다.
- 우연히 빠진 건지
- 특정 집단이 의도적으로 회피한 건지
👉 이유를 설명할 수 없으면, 논문에서는 반드시 지적당합니다.
4️⃣ 이상치는 ‘지우는 값’이 아니라 ‘판단하는 값’입니다
이상치(outlier)는 대부분 두 부류입니다.
- 입력 오류
- 의미 있는 극단값
문제는 이 둘을 구분하지 않고
전부 삭제해버리는 경우예요.
이러면 심사에서 바로 이런 말이 나옵니다.
“연구자의 주관적 데이터 조작 가능성”
📌 이상치는
- 왜 이상치로 판단했는지
- 왜 제거했는지 / 왜 유지했는지
이걸 말로 설명할 수 있어야 합니다.
5️⃣ 정규성, 생각보다 훨씬 중요합니다
많은 초보 연구자들이 이렇게 생각해요.
“요즘은 다 비모수도 쓰고, 표본 수 좀 있으면 괜찮지 않나요?”
부분적으로는 맞지만,
정규성 확인 없이 분석하는 건 위험합니다.
- t-test
- ANOVA
- 회귀분석
이런 분석들은 기본적으로 정규성을 가정합니다.
📌 정규성이 깨졌다면?
- 변환
- 비모수 검정
- 부트스트래핑
👉 선택지가 바뀌어야 합니다.
6️⃣ 이 단계에서 교수님이 보는 포인트
지도교수님이나 심사위원은
분석 결과보다 먼저 이걸 봅니다.
- 데이터가 정리되어 있는가
- 결측·이상치 처리 기준이 명확한가
- 분석 전에 점검을 했는가
여기서 신뢰가 깨지면, 뒤에 아무리 화려한 분석을 해도 설득력이 떨어져요.

마무리하며
설문조사는 끝이 아니라 시작입니다.
- 설문 설계 → 측정
- 데이터 점검 → 정제
- 그 다음에야 분석
이 순서를 건너뛰면, 분석은 돌아가도 논문은 흔들립니다.
데이터 전처리는 결과를 좋게 보이게 하는 작업이 아니라,
연구를 믿을 수 있게 만드는 최소한의 절차예요.
분석이 안 된다는 말의 절반은 사실 이 단계에서 이미 결정돼 있습니다.



