LSTM: Difference between revisions
From CS Wiki
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
[[분류:인공지능]] | [[분류:인공지능]] | ||
;Long Short Term Memory | ;Long Short Term Memory | ||
h<sub>t</sub> = f<sub>W</sub>(h<sub>t-1</sub>, x<sub>t</sub>) | |||
* h<sub>t</sub> = 새로운 상태 | |||
* f<sub>W</sub> = 파라미터 W에 대한 활성화 함수 | |||
* h<sub>t-1</sub> = 예전 상태 | |||
* x<sub>t</sub> = 현재 상태의 입력 벡터 | |||
== RNN의 문제 == | == RNN의 문제 == | ||
* Vanishing Gradient | * 문장 구성 수 만큼 Hidden Layer 형성하여 매우 Deep한 구조 | ||
* Exploding Gradient | * Recurrent에 따른 동일한 가중치(f<sub>W</sub>)가 곱해지게 되므로 아래 문제 발생 | ||
* f<sub>W</sub> < 1 = Vanishing Gradient | |||
* f<sub>W</sub> > 1 = Exploding Gradient | |||
== 구성 요소 == | == 구성 요소 == |
Revision as of 21:51, 25 January 2020
- Long Short Term Memory
ht = fW(ht-1, xt)
- ht = 새로운 상태
- fW = 파라미터 W에 대한 활성화 함수
- ht-1 = 예전 상태
- xt = 현재 상태의 입력 벡터
RNN의 문제
- 문장 구성 수 만큼 Hidden Layer 형성하여 매우 Deep한 구조
- Recurrent에 따른 동일한 가중치(fW)가 곱해지게 되므로 아래 문제 발생
- fW < 1 = Vanishing Gradient
- fW > 1 = Exploding Gradient
구성 요소
구성 요소 | 설명 |
---|---|
Forget Gate Layer |
|
Input Gate Layer |
|
Update Cell State |
|
Output Gate Layer |
|