6장. 데이터 처리와 분석

숫자가 그럴듯해 보여도 바로 쓰면 안 됩니다

월간 운영 리포트를 만들어야 합니다. 작업 폴더에는 sales-april.csv, ads-april.csv, refunds-april.csv, meeting-notes.md가 있습니다. 매출, 광고비, 환불, 실패 결제, 회의 메모를 합쳐 이번 달 요약을 만들어야 합니다.

바로 "4월 실적 분석해줘"라고 하면 결과는 빨리 나옵니다. 문제는 그 숫자를 보고서에 써도 되는지입니다. 날짜 범위가 맞는지, 매출과 환불을 어떻게 계산했는지, 누락값을 어떻게 처리했는지 모르면 쓸 수 없습니다.

이번 장에서는 다음 순서로 갑니다.

  • 계산보다 기준 확인을 먼저 한다.
  • 사용할 파일과 컬럼을 확인한다.
  • 날짜 범위와 누락값을 먼저 본다.
  • 요약표에서 맡길 일과 사람이 볼 일을 나눈다.
  • 이상치와 확인 필요를 분리한다.
  • 샘플 데이터셋으로 작은 분석을 연습한다.

💡 참고

데이터 작업에서 위험한 것은 계산을 못 하는 것이 아니라, 기준이 틀린 계산을 그럴듯한 표로 만드는 것입니다.

데이터 작업은 계산보다 기준 확인이 먼저입니다

데이터 파일은 보기보다 자주 지저분합니다. 날짜 형식이 섞여 있고, 숫자가 텍스트로 들어 있고, 환불은 음수인지 별도 파일인지 모를 수 있습니다.

처음 지시문은 분석 요청이 아니라 점검 요청이어야 합니다.

monthly-report 폴더의 데이터를 분석하려고 해.
아직 요약표나 보고서를 만들지 말고, 파일 구조만 먼저 확인해줘.

사용할 파일:
- sales-april.csv
- ads-april.csv
- refunds-april.csv
- meeting-notes.md

각 파일의 열 이름, 행 수, 날짜 범위, 숫자 컬럼, 빈 값 후보를 정리해줘.
파일에서 확인되지 않는 의미는 추측하지 말고 확인 필요로 표시해줘.

이 단계에서 이미 문제가 보일 수 있습니다. 광고비 파일은 채널명이 다르고, 환불 파일에는 실패 결제와 실제 환불이 섞여 있을 수 있습니다. 그런 문제를 발견하는 것이 첫 번째 성과입니다.

사용할 파일과 컬럼을 확인합니다

파일 이름이 명확해 보여도 실제 컬럼 의미는 확인해야 합니다.

sales-april.csv, ads-april.csv, refunds-april.csv의 컬럼을 비교해줘.

아직 계산하지 말고 아래만 알려줘.
- 날짜로 보이는 컬럼
- 금액으로 보이는 컬럼
- 카테고리나 채널로 보이는 컬럼
- 의미가 애매한 컬럼
- 숫자인데 텍스트로 읽힐 가능성이 있는 컬럼