데이터 분할: Difference between revisions
From CS Wiki
No edit summary |
No edit summary |
||
Line 10: | Line 10: | ||
*[[과적합 문제]] 방지 | *[[과적합 문제]] 방지 | ||
==데이터 분할 | == 분할 데이터 == | ||
* '''학습용 데이터(Training Set)''': 데이터를 학습하여 분석 모형을 만드는데 직접적으로 활용되는 데이터 | |||
* '''검증용 데이터(Validation Set)''': 과적합, 부적합 등 모형의 성능을 개선시키기 위한 데이터 | |||
* '''평가용 데이터(Test Set)''': 모델 성능 개선 및 적합성 검증용 데이터 | |||
** 검증 세트(Validation)와 비슷하지만, 모델을 구축하거나 튜닝할 때 포함된 적 없다는 점에서 차이 | |||
==데이터 분할 비율== | |||
*일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음) | *일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음) | ||
Line 16: | Line 22: | ||
[[파일:데이터 분할 예시.png|700x700픽셀]] | [[파일:데이터 분할 예시.png|700x700픽셀]] | ||
==모형 선정 과정== | ==모형 선정 과정== | ||
모형 선정의 첫번째 과정으로 데이터 분할이 사용된다. | 모형 선정의 첫번째 과정으로 데이터 분할이 사용된다. |
Revision as of 06:43, 2 December 2020
- 한정된 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터 등으로 분할하여 사용하는 기법
데이터 분할 이유
데이터 분석 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하기 위해 일부 데이터로 학습을 시키고 일부 데이터로 검증을 수행한다.
분할 데이터
- 학습용 데이터(Training Set): 데이터를 학습하여 분석 모형을 만드는데 직접적으로 활용되는 데이터
- 검증용 데이터(Validation Set): 과적합, 부적합 등 모형의 성능을 개선시키기 위한 데이터
- 평가용 데이터(Test Set): 모델 성능 개선 및 적합성 검증용 데이터
- 검증 세트(Validation)와 비슷하지만, 모델을 구축하거나 튜닝할 때 포함된 적 없다는 점에서 차이
데이터 분할 비율
- 일반적으로 학습용:검증용:평가용 = 5:3:2 비율 많이 사용(정해진 기준 없음)
- 학습용과 검증용은 학습 과정에서 사용하며 검증용은 학습 과정에서 사용하지 않음
모형 선정 과정
모형 선정의 첫번째 과정으로 데이터 분할이 사용된다.
- 1. 데이터 분할
- 2. 분석 모형 학습
- 3. 분석 모형 검증
- 4. 분석 모형 선택
- 5. 분석 모형 전개
- 6. 분석 모형 모니터링
- 7. 분석 모형 리모델링