워드 임베딩: Difference between revisions

Latest revision as of 09:38, 6 May 2020

문장 분석 시 단어를 표현함에 있어서 유사도를 부여하는 벡터 표현법

장점
- 단어간의 유사도 측정에 용이
- 단어간의 관계 파악에 유리
- 벡터 연산을 통한 추론이 가능
단점
- 단어의 Subword 정보 인식 불가
  - ex) 서울지하철, 대구지하철의 유사도 유추 불가
- OOV(Out of Vocabulary)에 적용 불가
  - 새로운 단어가 들어오면 새로 학습시켜야 함, 기존 모델 재활용 불가

@@ Line 1: / Line 1: @@
-[[분류:인공지능]][[분류:데이터 분석]]
+[[분류:인공지능]][[분류:데이터 과학]]
 ;Word Embedding
-문장 분석 시 단어를 표현함에 있어서 [[원핫 인코딩]]보다 저차원이며, 유사도를 가지는 벡터 표현
+문장 분석 시 단어를 표현함에 있어서 유사도를 부여하는 벡터 표현법
+== 구성 ==
+* 유사도 기준: 단어와 단어간 유사도를 부여할 기준. 거리나 문자 유사도 등
+* 소프트 맥스: 유사도를 산출한 임베딩 값을 통해 유사 단어 분류
+* 표현: 유사 단어를 그래프나 수치로 표현
+== 장단점 ==
+* 장점
+** 단어간의 유사도 측정에 용이
+** 단어간의 관계 파악에 유리
+** 벡터 연산을 통한 추론이 가능
+* 단점
+** 단어의 Subword 정보 인식 불가
+*** ex) 서울'''지하철''', 대구'''지하철'''의 유사도 유추 불가
+** OOV(Out of Vocabulary)에 적용 불가
+*** 새로운 단어가 들어오면 새로 학습시켜야 함, 기존 모델 재활용 불가
 == 같이 보기 ==
-* [[Word2Vec]]: 가까운 위치에 있는 단어에 높은 유사도를 부여하는 워드 임베딩 기법
+* [[Word2Vec]]: 여러 기준으로 단어를 임베딩해주는 파이썬 도구
+* [[Fasttext]]: Facebook에서 공개한, Word2Vec보다 개선된 워드 임베딩 도구