데이터 분할

데이터 분할 이유

데이터 분석 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하기 위해 일부 데이터로 학습을 시키고 일부 데이터로 검증을 수행한다.

학습용, 평가용으로만 나누기도 하고 학습용, 검증용, 평가용으로 나누기도 한다.

학습용 데이터(Training Set): 데이터를 학습하여 분석 모형을 만드는데 직접적으로 활용되는 데이터
검증용 데이터(Validation Set): 과적합, 부적합 등 모형의 성능을 개선시키기 위한 데이터
평가용 데이터(Test Set): 모델 성능 개선 및 적합성 검증용 데이터
- 검증 세트(Validation)와 비슷하지만, 모델을 구축하거나 튜닝할 때 포함된 적 없다는 점에서 차이

데이터의 대표성: 학습용 데이터와 평가용 데이터은 전체 데이터에 대한 대표성을 가져야 함
시간의 방향성: 과거 데이터로부터 미래 데이터를 예측하고자 할 경우에는 데이터를 섞을 수 없음
- 학습용 데이터에 있는 데이터보다 평가용 데이터의 모든 데이터가 미래의 것으로 구성
데이터 중복 : 각 훈련, 검증, 평가 데이터셋에는 데이터 포인트의 중복이 없도록 구성

모형 선정의 첫번째 과정으로 데이터 분할이 사용된다.