워드 임베딩: Difference between revisions
From CS Wiki
No edit summary |
No edit summary |
||
Line 7: | Line 7: | ||
* 소프트 맥스: 유사도를 산출한 임베딩 값을 통해 유사 단어 분류 | * 소프트 맥스: 유사도를 산출한 임베딩 값을 통해 유사 단어 분류 | ||
* 표현: 유사 단어를 그래프나 수치로 표현 | * 표현: 유사 단어를 그래프나 수치로 표현 | ||
== 장단점 == | |||
* 장점 | |||
** 단어간의 유사도 측정에 용이 | |||
** 단어간의 관계 파악에 유리 | |||
** 벡터 연산을 통한 추론이 가능 | |||
* 단점 | |||
** 단어의 Subword 정보 인식 불가 | |||
*** ex) 서울'''지하철''', 대구'''지하철'''의 유사도 유추 불가 | |||
** OOV(Out of Vocabulary)에 적용 불가 | |||
*** 새로운 단어가 들어오면 새로 학습시켜야 함, 기존 모델 재활용 불가 | |||
== 같이 보기 == | == 같이 보기 == | ||
* [[Word2Vec]]: 여러 기준으로 단어를 임베딩해주는 파이썬 도구 | * [[Word2Vec]]: 여러 기준으로 단어를 임베딩해주는 파이썬 도구 |
Revision as of 01:04, 30 December 2019
- Word Embedding
문장 분석 시 단어를 표현함에 있어서 유사도를 부여하는 벡터 표현법
구성
- 유사도 기준: 단어와 단어간 유사도를 부여할 기준. 거리나 문자 유사도 등
- 소프트 맥스: 유사도를 산출한 임베딩 값을 통해 유사 단어 분류
- 표현: 유사 단어를 그래프나 수치로 표현
장단점
- 장점
- 단어간의 유사도 측정에 용이
- 단어간의 관계 파악에 유리
- 벡터 연산을 통한 추론이 가능
- 단점
- 단어의 Subword 정보 인식 불가
- ex) 서울지하철, 대구지하철의 유사도 유추 불가
- OOV(Out of Vocabulary)에 적용 불가
- 새로운 단어가 들어오면 새로 학습시켜야 함, 기존 모델 재활용 불가
- 단어의 Subword 정보 인식 불가
같이 보기
- Word2Vec: 여러 기준으로 단어를 임베딩해주는 파이썬 도구