지도 학습
From CS Wiki
Revision as of 19:25, 21 September 2024 by 파네라 (talk | contribs) (새 문서: '''Supervised Learning''' 지도 학습은 입력 데이터와 그에 대응하는 정답(레이블)을 기반으로 모델을 학습시키는 '''기계 학습''' 방법이다. 목표는 주어진 입력에 대해 올바른 출력을 예측할 수 있도록 모델을 훈련하는 것이다. 주로 예측에 사용되므로 예측 모델(Predictive Model)이라고도 한다. 지도 학습은 정확한 레이블이 있는 데이터가 필요하므로, 데이터...)
Supervised Learning
지도 학습은 입력 데이터와 그에 대응하는 정답(레이블)을 기반으로 모델을 학습시키는 기계 학습 방법이다. 목표는 주어진 입력에 대해 올바른 출력을 예측할 수 있도록 모델을 훈련하는 것이다. 주로 예측에 사용되므로 예측 모델(Predictive Model)이라고도 한다.
지도 학습은 정확한 레이블이 있는 데이터가 필요하므로, 데이터 라벨링 작업이 많이 요구되지만 그만큼 성능이 뛰어나다.
지도학습 과정[edit | edit source]
- 데이터 준비: 입력 데이터와 그에 대응하는 정답을 모아 데이터셋을 구성한다. 예를 들어, 손글씨 숫자 이미지와 해당 숫자를 레이블로 설정할 수 있다.
- 모델 학습: 입력 데이터와 레이블을 통해 모델을 훈련시킨다. 모델은 입력과 출력 간의 관계를 학습하면서 패턴을 찾아낸다.
- 성능 평가: 학습된 모델을 새로운 테스트 데이터로 평가하여 성능을 측정한다. 이 과정에서 과적합(overfitting)이 발생하지 않도록 조정이 필요하다. 평가 과정은 검증(Validation)과 테스트(Test)로 나뉜다. 자세한 내용은 아래 지도 학습 데이터 참고.
- 예측: 학습이 끝난 모델을 이용해 새로운 데이터를 입력하면, 그에 대한 예측값을 반환한다.
지도 학습의 종류[edit | edit source]
- 분류(Classification): 데이터를 범주로 나누는 작업이다. 예를 들어, 이메일을 스팸과 정상으로 분류하거나, 이미지에서 개와 고양이를 구분하는 문제를 해결할 수 있다.
- 회귀(Regression): 연속적인 값을 예측하는 작업이다. 예를 들어, 집값을 예측하거나 날씨 데이터를 기반으로 온도를 예측하는 문제를 해결한다.
예시
- 이미지 분류: 이미지 데이터와 해당 레이블을 학습하여 새로운 이미지가 들어왔을 때 어떤 카테고리에 속하는지 예측한다.
- 자연어 처리(NLP): 텍스트와 감정 레이블(긍정, 부정)을 학습하여, 새로운 텍스트의 감정을 분류하는 작업이다.
- 주가 예측: 과거 주가 데이터를 이용해 미래의 주가를 예측하는 모델을 만든다.
지도 학습 데이터[edit | edit source]
훈련 데이터(Training Data)[edit | edit source]
- 역할: 모델을 학습시키는 데 사용되는 데이터. 입력 데이터와 그에 해당하는 정답(레이블)을 이용해 모델이 패턴을 학습하도록 한다.
- 목표: 입력과 출력 간의 관계를 잘 학습해 모델이 새로운 데이터를 처리할 수 있도록 만드는 것이 목표다.
- 과정: 모델은 이 데이터를 반복적으로 학습하며 손실 함수를 통해 예측 오차를 줄여나간다.
검증 데이터(Validation Data)[edit | edit source]
- 역할: 모델 학습 중에 성능을 평가하는 데 사용되는 데이터. 훈련 중에 사용되지만, 직접적인 모델 학습에는 포함되지 않는다.
- 목표: 모델이 훈련 데이터에 과적합(overfitting)되는 것을 방지하고, 최적의 하이퍼파라미터(예: 학습률, 배치 크기 등)를 찾는 데 도움을 준다.
- 과정: 매 에포크(epoch)마다 훈련 데이터 외의 검증 데이터를 통해 모델의 성능을 평가하고, 과적합을 확인하거나 학습을 조정하는 데 사용된다.
테스트 데이터(Test Data)[edit | edit source]
- 역할: 최종적으로 모델의 성능을 평가하는 데 사용되는 데이터. 모델이 학습이나 검증 과정에서 전혀 보지 못한 데이터로 구성된다.
- 목표: 모델이 학습한 내용을 바탕으로 실제로 새로운 데이터에 대해 얼마나 잘 예측하는지 측정하는 것이 목적이다. 이 과정에서 얻는 성능이 모델의 일반화 성능을 나타낸다.
- 과정: 학습이 완료된 후에만 사용하며, 모델이 얼마나 정확하게 예측하는지 평가 지표(정확도, F1 스코어 등)를 통해 측정한다.
지도 학습의 조건[edit | edit source]
지도 학습은 라벨링된 데이터가 필요하다는 필수 조건이 있다.
- 조건1: 구체적이고 계량 가능한 목표가 있어야 한다.
- 예:
- 주가 변동 등 수치를 예측하는 문제
- 정해진 분류군에서 어디서 속하는지 문제 (분류1, 분류2, 분류3 등 정해진 카테고리 중 선택)
- Yes or No의 문제(본질적으로 분류1=Yes, 분류2=No의 문제이므로 위와 동일하다)
- 예:
- 조건2: 라벨링된 데이터가 충분히 있어야 한다.
- 여기서 라벨링이란 우리가 예측하고자 하는 값에 대한 라벨링을 의미한다.
- 즉 주가를 예측하고자 하면 주가에 대한 라벨링이 있어야 한다.
- 최근 적은 수의 데이터로도 높은 성능을 내는 학습 모델이 있지만, 기본적으로 데이터가 많아야 정확성이 담보된다.