LSTM

From CS Wiki
Revision as of 21:51, 25 January 2020 by PE120 (talk | contribs)
Long Short Term Memory

ht = fW(ht-1, xt)

  • ht = 새로운 상태
  • fW = 파라미터 W에 대한 활성화 함수
  • ht-1 = 예전 상태
  • xt = 현재 상태의 입력 벡터

RNN의 문제

  • 문장 구성 수 만큼 Hidden Layer 형성하여 매우 Deep한 구조
  • Recurrent에 따른 동일한 가중치(fW)가 곱해지게 되므로 아래 문제 발생
  • fW < 1 = Vanishing Gradient
  • fW > 1 = Exploding Gradient

구성 요소

구성 요소 설명
Forget Gate Layer
  • 어떠한 정보를 반영할지에 대한 결정
  • sigmoid 활성화 함수를 통해 0~1사이의 값을 출력
Input Gate Layer
  • 새로운 정보가 cell state에 저장이 될지 결정하는 게이트
  • sigmoid layer, tanh layer로 구성
Update Cell State
  • forget gate와 input gate에서 출력된 값들을 cell state로 업데이트
Output Gate Layer
  • 출력값 결정 단계