설문 데이터를 처음 정리하다 보면
생각보다 자주 이런 유혹이 생깁니다.
- 이상한 값은 좀 빼고 싶고
- 결과 안 맞는 응답은 정리하고 싶고
- 분포도 조금 예쁘게 만들고 싶고
특히 결과가 애매할수록
손이 더 많이 갑니다.
그런데 데이터 정리에는
생각보다 중요한 기준이 하나 있습니다.
👉 “어디까지 건드려도 되는가”
1️⃣ 데이터 정리는 가능하지만, ‘수정’은 다릅니다

많이 헷갈리는 부분입니다.
✔ 가능한 것
- 결측값 처리
- 이상치 확인
- 코딩 수정
- 불성실 응답 제거
👉 이건 정리
❗ 조심해야 하는 것
- 결과에 맞게 데이터 조정
- 특정 응답만 반복 제거
- 방향 맞추기 위한 수정
👉 이건 “정리”가 아니라 “개입”에 가까워집니다
2️⃣ 가장 위험한 순간은 ‘결과를 본 뒤’입니다
이상하게도
데이터를 가장 많이 건드리게 되는 순간은 여기입니다.
👉 분석 결과가 마음에 안 들 때
예:
- 유의하지 않음
- 방향 반대로 나옴
- 설명력 낮음
그러면 자연스럽게 이런 생각이 듭니다.
“이 응답만 빼면 달라질 것 같은데…”
여기서부터 위험해집니다 ⚠️
3️⃣ 특히 많이 건드리는 부분들

실제로 자주 나오는 경우입니다.
📌 이상치 제거
→ 기준 없이 삭제
📌 응답 속도
→ 애매한 기준으로 제외
📌 특정 집단 응답 제거
→ 결과 방향 맞추기
📌 척도 방향 수정
→ 해석 유리하게 변경
👉 이건 나중에
논문 신뢰도 자체 문제로 이어질 수 있습니다
4️⃣ ‘이유 없는 수정’이 가장 위험합니다
데이터 정리에서 중요한 건
👉 수정 여부보다
👉 “왜 그렇게 했는가”
예를 들어
✔ 정상적인 경우
“응답시간 1분 이하 데이터 제외”
👉 기준 있음
❌ 위험한 경우
“이상해 보여서 제거”
👉 기준 없음
5️⃣ 그래서 정리는 ‘분석 전’에 끝내는 게 원칙입니다

좋은 연구일수록
데이터 정리 기준을 먼저 정합니다.
예:
- 결측값 처리 기준
- 이상치 기준
- 제거 기준
👉 그리고 분석 전에 정리 완료
이렇게 해야
👉 결과 따라 흔들리지 않음
6️⃣ 의외로 건드리면 안 되는 건 ‘애매한 데이터’입니다
많은 분들이
👉 애매한 데이터 = 제거 대상이라고 생각합니다.
그런데 실제로는
👉 애매하다고 무조건 틀린 데이터는 아닙니다
현실 데이터는 원래
조금 지저분합니다.
7️⃣ 깔끔한 데이터가 항상 좋은 건 아닙니다
이것도 진짜 중요한 포인트입니다.
데이터가 지나치게 예쁘면
오히려 이상할 수도 있습니다.
- 응답 분포 너무 완벽
- 이상치 전혀 없음
- 패턴 지나치게 균일
👉 현실 데이터에서는 드문 경우
즉,
👉 “너무 깔끔함”도
한 번쯤은 의심해볼 필요 있음
📌 이렇게 보면 됩니다
- 기준 있는 정리 ⭕
- 결과 맞추기용 수정 ❌
- 애매하다고 무조건 제거 ❌
👉 핵심은 “일관성”
👀 많이 틀리는 포인트
결과 보고 수정 ❌
느낌으로 제거 ❌
과하게 깔끔하게 만들기 ❌
👉 다 위험




