데이터 정리 단계에서 가장 많이 틀리는 포인트

4월 10, 2026
-

설문이 끝나고 데이터를 받으면
많은 분들이 바로 분석으로 넘어가려고 합니다.

하지만 실제로 가장 많이 틀리는 구간은
이 단계입니다.

👉 데이터 정리 (전처리)

이걸 어떻게 하느냐에 따라
결과 자체가 달라질 수 있습니다.

1️⃣ 데이터 정리는 ‘정리’가 아니라 ‘판단’입니다

많이 하는 착각입니다.

👉 “엑셀 정리만 잘하면 된다” ❌

실제로는

어떤 데이터를 살릴지
무엇을 제외할지

이걸 결정하는 단계입니다.

즉, 단순 작업이 아니라 분석의 시작점

2️⃣ 가장 많이 틀리는 포인트 ① : 결측값 처리

👉 거의 무조건 등장하는 문제

응답 안 한 문항
중간 이탈
비어 있는 값

이걸 그냥 넘기면

👉 결과 왜곡 가능성 있음 ⚠️

✔ 기본 방법 ① : 리스트와이즈 삭제

👉 가장 많이 쓰는 방식

결측 있는 행 전체 삭제
SPSS 기본 설정
적용이 간단함

✔ 언제 쓰면 되나

결측 비율이 낮을 때 (보통 5% 이하)
특정 패턴 없이 랜덤하게 빠진 경우

👉 이 조건이면 비교적 안전한 편입니다

❗ 주의할 점

표본 수 감소
특정 집단이 같이 빠질 경우 결과 왜곡 가능

✔ 방법 ② : 평균값 대체

이상치를 보면
대부분 이렇게 생각합니다.

👉 “이건 튀니까 빼야겠다” ❌

하지만 기준 없이 제거하면

👉 결과가 바뀔 수 있습니다

❗ 주의할 점

변동성 감소
데이터가 실제보다 “균일하게” 보일 수 있음
많이 사용할수록 왜곡 가능성 증가 ⚠️

3️⃣ 가장 많이 틀리는 포인트 ② : 이상치 처리

이상치를 보면
대부분 이렇게 생각합니다.

👉 “이건 튀니까 빼야겠다” ❌

하지만 기준 없이 제거하면

👉 결과가 바뀔 수 있습니다

✔ 이렇게 먼저 확인해야 합니다

입력 오류인지
실제 가능한 값인지
특정 집단에서만 발생하는지

👉 단순 제거가 아니라 이유를 먼저 확인

4️⃣ 가장 많이 틀리는 포인트 ③ : 변수 코딩

은근히 많이 틀리는 부분입니다.

1 = 남자 / 2 = 여자
0 = 없음 / 1 = 있음

이 코딩이 잘못되면

👉 해석이 완전히 뒤집힙니다 ⚠️

👉 특히 회귀분석에서는 코딩 방향이 결과 해석에 직접 영향

📌 이렇게 보면 됩니다

결측값 → 그냥 삭제 ❌ / 조건 보고 판단 ⭕
이상치 → 무조건 제거 ❌ / 이유 확인 ⭕
변수 코딩 → 사소해 보여도 핵심

👉 전부 “판단의 문제”

K-GRAD 꿀팁

K-Grad

한국 대학원생 협회에서는 대학원생들을 위한 수많은 정보와 혜택, 그리고 강의를 제공합니다.

Most Recent Posts

All Post
K-GRAD EVENT
K-GRAD 강의
K-GRAD 꿀팁
Religion/Spirituality
Science/Technology

뉴스레터 가입하기

데이터 정리 단계에서 가장 많이 틀리는 포인트

1️⃣ 데이터 정리는 ‘정리’가 아니라 ‘판단’입니다

2️⃣ 가장 많이 틀리는 포인트 ① : 결측값 처리

✔ 기본 방법 ① : 리스트와이즈 삭제

✔ 언제 쓰면 되나

❗ 주의할 점

✔ 방법 ② : 평균값 대체

❗ 주의할 점

3️⃣ 가장 많이 틀리는 포인트 ② : 이상치 처리

✔ 이렇게 먼저 확인해야 합니다

4️⃣ 가장 많이 틀리는 포인트 ③ : 변수 코딩

📌 이렇게 보면 됩니다

K-Grad

Features

Most Recent Posts

📢 연구·분석·AI 공모/공고 모음 📢