LSTM

From CS Wiki

Revision as of 21:54, 25 January 2020 by PE120 (talk | contribs)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Long Short Term Memory

RNN의 문제

문장 구성 수 만큼 Hidden Layer 형성하여 매우 Deep한 구조
Recurrent에 따른 동일한 가중치(f_W)가 곱해지게 되므로 아래 문제 발생

RNN의 수식 표현: h_t = f_W(h_t-1, x_t)

h_t = 새로운 상태
f_W = 파라미터 W에 대한 활성화 함수
h_t-1 = 예전 상태
x_t = 현재 상태의 입력 벡터
f_W < 1 = Vanishing Gradient
f_W > 1 = Exploding Gradient

즉, 관련 정보와 그 정보를 사용하는 지점이 먼 경우 학습 능력 저하

- 장기 기억을 사용하지 못하고 단기 기억만을 사용
- LSTM(Long Short Term Memory)는 이 문제를 해결

구성 요소

구성 요소	설명
Forget Gate Layer	어떠한 정보를 반영할지에 대한 결정 sigmoid 활성화 함수를 통해 0~1사이의 값을 출력
Input Gate Layer	새로운 정보가 cell state에 저장이 될지 결정하는 게이트 sigmoid layer, tanh layer로 구성
Update Cell State	forget gate와 input gate에서 출력된 값들을 cell state로 업데이트
Output Gate Layer	출력값 결정 단계

Retrieved from "https://cswiki.net/index.php?title=LSTM&oldid=6778"

인공지능