Bag of Words
From CS Wiki
- BoW; 단어 가방
- 문장을 구성하는 단어들을 카운팅하여 문장을 분석하는 기법
- 문장을 기반으로 기계학습을 수행할 때 가장 간단하게 할 수 있는 수치화 방법
예시
- 문장1: I love you, 문장2: You love me, 문장3: You and I love you and me
- 구성 단어: I, Love, You, Me, And
- 표현
- I love you = [1,1,1,0,0]
- You love me = [0,1,1,1,0]
- You and I love you and me = [1,1,2,1,2]
한계점
- Sparsity: 문장을 구성하는 단어들이 많아질 경우 계산 부하 급격히 증가
- 부정확성: 단어의 구성만으로 분석한 결과는 엉뚱하게 나올 수 있음
- 순서 무시: Home run과 Run home을 구분하지 못함
- 정확도 의존성: 오타, 변형어, 줄임말 등은 전혀 다른 단어로 인식됨