뉴스레터 가입하기

이 양식을 작성하려면 브라우저에서 JavaScript를 활성화하십시오.
가입경로
여기에 입력해주세요.
Edit Template

학위 논문 데이터, 이상치(outlier) 처리 안 하면 생기는 문제

설문 데이터를 정리하다 보면 이런 상황이 나옵니다.
대부분은 3~4점대인데 몇 개 값만 유독 튀는 경우입니다.
이걸 그냥 두고 분석을 진행하면, 결과가 묘하게 이상하게 나옵니다. 이유는 단순합니다.

이상치 하나가 전체 통계를 흔들기 때문입니다.


이상치는 “이상한 값”이 아니라 “결과를 바꾸는 값”입니다

이상치는 단순히 튀는 값이 아니라, 평균과 분산을 바꾸는 요소입니다.
예를 들어 대부분이 3~4인데 일부가 1이나 5로 극단적으로 응답하면 평균이 이동하고, 변수 간 관계도 왜곡됩니다. 심한 경우에는 회귀 결과의 방향(+, -) 자체가 바뀌기도 합니다.


실제로 논문에서 터지는 문제

이상치를 그대로 두면 아래 문제가 발생합니다.

  • 평균과 표준편차 왜곡 → 데이터 해석 자체가 틀어짐
  • 유의확률(p값) 흔들림 → 원래 유의한 결과가 사라지거나 반대로 생김
  • 신뢰도(Cronbach’s α) 저하 → 변수 자체 사용 어려워짐

즉, 분석이 틀린 게 아니라 데이터 상태가 틀린 상태가 됩니다.


이상치, 어떻게 찾는 게 현실적인가

논문에서 가장 많이 쓰는 방법은 세 가지입니다.

  • Z-score 기준: ±3 이상이면 이상치로 판단
  • 박스플롯: 눈으로 확인되는 극단값
  • 기술통계: 평균 대비 지나치게 벗어난 값

이 세 가지를 같이 보는 게 가장 안정적입니다. 하나만 보면 놓치는 경우 많습니다.


무조건 삭제하면 되는가? 절대 아닙니다

여기서 많이 틀립니다. 이상치라고 해서 무조건 제거하면 안 됩니다. 기준은 하나입니다.

👉 “이 값이 실제로 가능한 값인가?”

  • 입력 오류, 말이 안 되는 값 → 삭제
  • 실제로 가능한 극단값 → 유지

예를 들어 고령층 연구에서 70대 응답은 이상치가 아니라 정상 데이터입니다.
반대로 20대 대상 설문에서 80세 응답은 오류일 가능성이 높습니다.


가장 안전한 처리 방식

실무적으로는 이렇게 진행하면 됩니다.

  1. Z-score로 1차 확인
  2. 박스플롯으로 시각 확인
  3. 값의 현실성 판단
  4. 제거 여부 결정 (근거 기록)

핵심은 “기준 없이 삭제하지 않는 것”입니다.


논문에서는 이렇게 정리하면 깔끔합니다

이상치는 Z-score 기준 ±3 이상 값을 중심으로 검토하였으며,
분석 결과에 영향을 미치는 비정상 값은 제외한 후 분석을 진행하였다.

이 정도면 충분합니다. 길게 쓸 필요 없습니다.


핵심 정리

이상치는 그냥 튀는 값이 아니라
👉 결과를 바꾸는 변수입니다.

그리고 더 중요한 건
👉 처리 기준이 명확해야 한다는 것입니다.


한 줄 결론

이상치를 방치하면 분석이 틀리고,
기준 없이 제거하면 논문이 흔들립니다.

K-Grad​

한국 대학원생 협회에서는 대학원생들을 위한 수많은 정보와 혜택, 그리고 강의를 제공합니다.

Features

Most Recent Posts

무료회원가입

무료회원가입 후 혜택받으세요!

Category

대학원생을 위한 유일한 협회!

Help

Copyright

Privacy Policy

Mailing List

© 2023 Created with K-GRAD