탐색적 데이터 분석

From CS Wiki
Exploratory Data Analysis; EDA
통계적 가설 검정 등의 기존 데이터 분석과 달리, 가설이나 뚜렷한 목적 없이 데이터에 숨겨진 의미, 인지하지 못했던 가치를 파악하기 위해 탐색적으로 데이터를 분석하는 과정
  • 벨연구소의 수학자인 존 튜키는 확증적 데이터 분석과는 대조적인 EDA를 개발

도구[edit | edit source]

  • 도표(plot)
  • 그래프(graph)
  • 요약통계(summary statistics)

접근법[edit | edit source]

아래 행위를 반복한다.
  • 1. 데이터에 대한 질문&문제 만들기
  • 2. 데이터를 시각화하고, 변환하고, 모델링하여 그 질문&문제에 대한 답을 찾아보기
  • 3. 찾는 과정에서 배운 것들을 토대로 다시 질문을 다듬고 또 다른 질문&문제 만들기

탐색[edit | edit source]

  • 모든 변수의 분포를 도표화
  • 시계열 데이터를 도표화
  • 산점도 행렬을 이용하여 변수들의 대응 관계를 파악
  • 모든 변수의 요약통계를 생성

발견[edit | edit source]

  • 데이터에 대한 인사이트
  • 데이터의 가치와 활용 목표에 대한 발견
  • 예상치 못했던 관계성
  • 미래 예측 등

참고 문헌[edit | edit source]