장점 1 : 입력 스트림에서의 특정한 특징에 대한 존재를 긴 steps 동안 더 잘 기억할 수 있음 (중요한 특징이라면 덮어지지 않고 유지됨)
장점 2 : 몇 개의 시간 단계를 우회하는 shortcut을 생성 (이는 back propagation시 gradient vanishing 없이 더 효율적으로 진행되도록 도움)
LSTM 과 GRU의 차이점
메모리 콘텐츠의 노출을 제어함 ~ LSTM은 output gate에 의해 조절되는 반면, GRU는 모든 내용을 어떤 통제도 없이 노출
LSTM 은 이전 시간에서 흘러오는 정보의 양을 별도의 control 없이 계산함
LSTM은 새로운 메모리 셀을 forget gate와 독립적으로 통제함
GRU는 이전 활성화의 정보 흐름을 비독립적으로 통제함
이러한 유사점 & 차이점만으로는 어떤 Gate 유형이 더 나은 성능을 발휘하는지 애매하며, 기존 논문들에서는 성능이 비슷하다고 보고하지만 이것이 machine translation에도 적용되는지는 불분명하기 때문에 철저한 비교가 필요하다.
4. Experiments Setting
4.1 Tasks and Datasets
sequence modeling 수행에서 LSTM, GRU, tanh 유닛을 비교한다. sequence modeling은 주어진 훈련 시퀀스에서 log-likelihood를 최대화하며 sequence별로 확률분포를 학습시키는 것을 목적으로 한다.
Polyphonic music modeling - 4가지 music datasets 사용 / output unit으로 logistic sigmoid 함수
speech signal modeling - Ubisoft의2가지데이터셋을사용/ output layer로20개의구성요소를가진가우시안사용
4.2 Models
세가지 유닛간 공정한 비교를 위해 거의 똑같은 개수의 파라미터를 가지게 하였다. 또한 의도적으로 overfitting을 막기 위해 모델을 충분히 작게 만들어 비교가 용이하게 한다. 각 모델을 RMSProp으로 훈련시키고 0.075로 고정된 표준편차를 가진 weight noise를 사용하며, 각 업데이트마다 1보다 큰 경우 exploding gradient를 막기 위해 기울기의 norm을 1로 지속적으로 조정시킨다. unifrom distribution (-12, -6)에서 샘플링된 10개의 log-uniform candidates 사이에서 검증 성능을 최대화하기 위한 learning rate를 선택한다.
5. Results and Analysis
6. Conclusion
본 논문에서는 LSTM, GRU 그리고 기존의 tanh units로 평가를 진행하며 기존의 방법보다 gated mechanism이 더 좋은 성능을 보였지만 LSTM과 GRU 사이에는 우위를 가리지 못하여 향후 연구에서 더 철저한 실험이 진행되어야 한다.
댓글 영역