— 분석 전에 반드시 고민해야 하는 문제
설문 데이터를 정리하다 보면
평균과 크게 다른 값들이 눈에 띄는 경우가 있습니다.
예를 들어
- 대부분 3~4점 응답인데 일부만 1점 또는 5점
- 특정 변수 값이 유난히 높거나 낮은 경우
이러한 데이터를 이상치(outlier)라고 합니다.
이때 많은 연구자들이 고민합니다.
“이 값은 제거해야 할까?”
1️⃣ 이상치는 무조건 제거 대상이 아닙니다
이상치는 단순한 오류가 아니라
실제 응답일 가능성도 있습니다.
예를 들어
- 매우 높은 만족도를 가진 응답자
- 강한 부정적 경험을 가진 응답자
이러한 응답은 평균과 다르게 나타날 수 있습니다.
즉, 이상치라고 해서
무조건 잘못된 데이터라고 볼 수는 없습니다.
2️⃣ 먼저 데이터 오류인지 확인해야 합니다

이상치를 발견했다면
가장 먼저 확인해야 할 것은 데이터 오류 여부입니다.
예를 들어
- 입력 과정에서 숫자가 잘못 들어간 경우
- 설문 시스템 오류
- 단위 착오
이런 경우라면
수정하거나 제거하는 것이 적절합니다.
3️⃣ 분석 결과에 미치는 영향을 확인해야 합니다
이상치는 특히 다음과 같은 분석에서
큰 영향을 줄 수 있습니다.
- 평균값
- 회귀분석
- 상관분석
따라서 이상치를 포함한 결과와
제외한 결과를 비교해보는 것도 좋은 방법입니다.
만약 결과가 크게 달라진다면
해석에 신중할 필요가 있습니다.

4️⃣ 판단 기준은 ‘연구 맥락’입니다
이상치 처리에서 가장 중요한 것은
통계적 기준보다 연구 맥락입니다.
예를 들어
- 특정 극단적 집단이 연구 대상이라면
이상치는 중요한 정보일 수 있습니다. - 반대로 일반적인 경향을 보는 연구라면
일부 극단값이 결과를 왜곡할 수도 있습니다.
따라서 이상치 제거 여부는
연구 목적과 데이터 특성을 함께 고려해야 합니다.

정리
이상치는 단순히 제거할 대상이 아니라
데이터가 보여주는 중요한 신호일 수 있습니다.
이상치를 다룰 때는
- 오류 여부 확인
- 분석에 미치는 영향 점검
- 연구 목적과의 적합성 판단
이 세 가지를 함께 고려하는 것이 중요합니다.
데이터 분석은
숫자를 정리하는 과정이 아니라
그 숫자가 의미하는 바를 이해하는 과정입니다.



