뉴스레터 가입하기

이 양식을 작성하려면 브라우저에서 JavaScript를 활성화하십시오.
가입경로
여기에 입력해주세요.
Edit Template

데이터 정리 단계에서 가장 많이 틀리는 포인트

설문이 끝나고 데이터를 받으면
많은 분들이 바로 분석으로 넘어가려고 합니다.

하지만 실제로 가장 많이 틀리는 구간은
이 단계입니다.

👉 데이터 정리 (전처리)

이걸 어떻게 하느냐에 따라
결과 자체가 달라질 수 있습니다.


1️⃣ 데이터 정리는 ‘정리’가 아니라 ‘판단’입니다

많이 하는 착각입니다.

👉 “엑셀 정리만 잘하면 된다” ❌

실제로는

  • 어떤 데이터를 살릴지
  • 무엇을 제외할지

이걸 결정하는 단계입니다.

즉, 단순 작업이 아니라 분석의 시작점


2️⃣ 가장 많이 틀리는 포인트 ① : 결측값 처리

👉 거의 무조건 등장하는 문제

응답 안 한 문항
중간 이탈
비어 있는 값

이걸 그냥 넘기면

👉 결과 왜곡 가능성 있음 ⚠️


✔ 기본 방법 ① : 리스트와이즈 삭제

👉 가장 많이 쓰는 방식

  • 결측 있는 행 전체 삭제
  • SPSS 기본 설정
  • 적용이 간단함

✔ 언제 쓰면 되나

  • 결측 비율이 낮을 때 (보통 5% 이하)
  • 특정 패턴 없이 랜덤하게 빠진 경우

👉 이 조건이면 비교적 안전한 편입니다

❗ 주의할 점

  • 표본 수 감소
  • 특정 집단이 같이 빠질 경우 결과 왜곡 가능

✔ 방법 ② : 평균값 대체

이상치를 보면
대부분 이렇게 생각합니다.

👉 “이건 튀니까 빼야겠다” ❌

하지만 기준 없이 제거하면

👉 결과가 바뀔 수 있습니다

❗ 주의할 점

  • 변동성 감소
  • 데이터가 실제보다 “균일하게” 보일 수 있음
  • 많이 사용할수록 왜곡 가능성 증가 ⚠️

3️⃣ 가장 많이 틀리는 포인트 ② : 이상치 처리

이상치를 보면
대부분 이렇게 생각합니다.

👉 “이건 튀니까 빼야겠다” ❌

하지만 기준 없이 제거하면

👉 결과가 바뀔 수 있습니다


✔ 이렇게 먼저 확인해야 합니다

  • 입력 오류인지
  • 실제 가능한 값인지
  • 특정 집단에서만 발생하는지

👉 단순 제거가 아니라 이유를 먼저 확인


4️⃣ 가장 많이 틀리는 포인트 ③ : 변수 코딩

은근히 많이 틀리는 부분입니다.

  • 1 = 남자 / 2 = 여자
  • 0 = 없음 / 1 = 있음

이 코딩이 잘못되면

👉 해석이 완전히 뒤집힙니다 ⚠️

👉 특히 회귀분석에서는 코딩 방향이 결과 해석에 직접 영향


📌 이렇게 보면 됩니다

  • 결측값 → 그냥 삭제 ❌ / 조건 보고 판단 ⭕
  • 이상치 → 무조건 제거 ❌ / 이유 확인 ⭕
  • 변수 코딩 → 사소해 보여도 핵심

👉 전부 “판단의 문제”

K-Grad​

한국 대학원생 협회에서는 대학원생들을 위한 수많은 정보와 혜택, 그리고 강의를 제공합니다.

Features

Most Recent Posts

무료회원가입

무료회원가입 후 혜택받으세요!

Category

대학원생을 위한 유일한 협회!

Help

Copyright

Privacy Policy

Mailing List

© 2023 Created with K-GRAD