탐색적 데이터 분석
From CS Wiki
- Exploratory Data Analysis; EDA
- 통계적 가설 검정 등의 기존 데이터 분석과 달리, 가설이나 뚜렷한 목적 없이 데이터에 숨겨진 의미, 인지하지 못했던 가치를 파악하기 위해 탐색적으로 데이터를 분석하는 과정
- 벨연구소의 수학자인 존 튜키는 확증적 데이터 분석과는 대조적인 EDA를 개발
도구[edit | edit source]
- 도표(plot)
- 그래프(graph)
- 요약통계(summary statistics)
접근법[edit | edit source]
- 아래 행위를 반복한다.
- 1. 데이터에 대한 질문&문제 만들기
- 2. 데이터를 시각화하고, 변환하고, 모델링하여 그 질문&문제에 대한 답을 찾아보기
- 3. 찾는 과정에서 배운 것들을 토대로 다시 질문을 다듬고 또 다른 질문&문제 만들기
탐색[edit | edit source]
- 모든 변수의 분포를 도표화
- 시계열 데이터를 도표화
- 산점도 행렬을 이용하여 변수들의 대응 관계를 파악
- 모든 변수의 요약통계를 생성
발견[edit | edit source]
- 데이터에 대한 인사이트
- 데이터의 가치와 활용 목표에 대한 발견
- 예상치 못했던 관계성
- 미래 예측 등