뉴스레터 가입하기

이 양식을 작성하려면 브라우저에서 JavaScript를 활성화하십시오.
가입경로
여기에 입력해주세요.
Edit Template

데이터 정리에서 ‘건드리면 안 되는 부분’은 어디일까요?

설문 데이터를 처음 정리하다 보면
생각보다 자주 이런 유혹이 생깁니다.

  • 이상한 값은 좀 빼고 싶고
  • 결과 안 맞는 응답은 정리하고 싶고
  • 분포도 조금 예쁘게 만들고 싶고

특히 결과가 애매할수록
손이 더 많이 갑니다.

그런데 데이터 정리에는
생각보다 중요한 기준이 하나 있습니다.

👉 “어디까지 건드려도 되는가”


1️⃣ 데이터 정리는 가능하지만, ‘수정’은 다릅니다

많이 헷갈리는 부분입니다.

✔ 가능한 것

  • 결측값 처리
  • 이상치 확인
  • 코딩 수정
  • 불성실 응답 제거

👉 이건 정리

❗ 조심해야 하는 것

  • 결과에 맞게 데이터 조정
  • 특정 응답만 반복 제거
  • 방향 맞추기 위한 수정

👉 이건 “정리”가 아니라 “개입”에 가까워집니다


2️⃣ 가장 위험한 순간은 ‘결과를 본 뒤’입니다

이상하게도
데이터를 가장 많이 건드리게 되는 순간은 여기입니다.

👉 분석 결과가 마음에 안 들 때

예:

  • 유의하지 않음
  • 방향 반대로 나옴
  • 설명력 낮음

그러면 자연스럽게 이런 생각이 듭니다.

“이 응답만 빼면 달라질 것 같은데…”

여기서부터 위험해집니다 ⚠️


3️⃣ 특히 많이 건드리는 부분들

실제로 자주 나오는 경우입니다.

📌 이상치 제거
→ 기준 없이 삭제

📌 응답 속도
→ 애매한 기준으로 제외

📌 특정 집단 응답 제거
→ 결과 방향 맞추기

📌 척도 방향 수정
→ 해석 유리하게 변경

👉 이건 나중에
논문 신뢰도 자체 문제로 이어질 수 있습니다


4️⃣ ‘이유 없는 수정’이 가장 위험합니다

데이터 정리에서 중요한 건

👉 수정 여부보다
👉 “왜 그렇게 했는가”

예를 들어

✔ 정상적인 경우


“응답시간 1분 이하 데이터 제외”

👉 기준 있음

❌ 위험한 경우

“이상해 보여서 제거”

👉 기준 없음


5️⃣ 그래서 정리는 ‘분석 전’에 끝내는 게 원칙입니다

좋은 연구일수록
데이터 정리 기준을 먼저 정합니다.

예:

  • 결측값 처리 기준
  • 이상치 기준
  • 제거 기준

👉 그리고 분석 전에 정리 완료

이렇게 해야

👉 결과 따라 흔들리지 않음


6️⃣ 의외로 건드리면 안 되는 건 ‘애매한 데이터’입니다

많은 분들이

👉 애매한 데이터 = 제거 대상이라고 생각합니다.

그런데 실제로는

👉 애매하다고 무조건 틀린 데이터는 아닙니다

현실 데이터는 원래
조금 지저분합니다.


7️⃣ 깔끔한 데이터가 항상 좋은 건 아닙니다

이것도 진짜 중요한 포인트입니다.

데이터가 지나치게 예쁘면
오히려 이상할 수도 있습니다.

  • 응답 분포 너무 완벽
  • 이상치 전혀 없음
  • 패턴 지나치게 균일

👉 현실 데이터에서는 드문 경우

즉,

👉 “너무 깔끔함”도
한 번쯤은 의심해볼 필요 있음


📌 이렇게 보면 됩니다

  • 기준 있는 정리 ⭕
  • 결과 맞추기용 수정 ❌
  • 애매하다고 무조건 제거 ❌

👉 핵심은 “일관성”

👀 많이 틀리는 포인트

결과 보고 수정 ❌
느낌으로 제거 ❌
과하게 깔끔하게 만들기 ❌

👉 다 위험

K-Grad​

한국 대학원생 협회에서는 대학원생들을 위한 수많은 정보와 혜택, 그리고 강의를 제공합니다.

Features

Most Recent Posts

무료회원가입

무료회원가입 후 혜택받으세요!

Category

대학원생을 위한 유일한 협회!

Help

Copyright

Privacy Policy

Mailing List

© 2023 Created with K-GRAD