LSTM Structure
time t에서의 memory h
output gate
memory cell c
new memory content
forget & input gate
GRU structure
update gate
reset gate
sequence modeling 수행에서 LSTM, GRU, tanh 유닛을 비교한다. sequence modeling은 주어진 훈련 시퀀스에서 log-likelihood를 최대화하며 sequence별로 확률분포를 학습시키는 것을 목적으로 한다.
Polyphonic music modeling - 4가지 music datasets 사용 / output unit으로 logistic sigmoid 함수
speech signal modeling - Ubisoft의 2가지 데이터셋을 사용 / output layer로 20개의 구성요소를 가진 가우시안 사용
세가지 유닛간 공정한 비교를 위해 거의 똑같은 개수의 파라미터를 가지게 하였다. 또한 의도적으로 overfitting을 막기 위해 모델을 충분히 작게 만들어 비교가 용이하게 한다. 각 모델을 RMSProp으로 훈련시키고 0.075로 고정된 표준편차를 가진 weight noise를 사용하며, 각 업데이트마다 1보다 큰 경우 exploding gradient를 막기 위해 기울기의 norm을 1로 지속적으로 조정시킨다. unifrom distribution (-12, -6)에서 샘플링된 10개의 log-uniform candidates 사이에서 검증 성능을 최대화하기 위한 learning rate를 선택한다.
본 논문에서는 LSTM, GRU 그리고 기존의 tanh units로 평가를 진행하며 기존의 방법보다 gated mechanism이 더 좋은 성능을 보였지만 LSTM과 GRU 사이에는 우위를 가리지 못하여 향후 연구에서 더 철저한 실험이 진행되어야 한다.
[6주차/DL2팀/논문리뷰] Attention is all you need (1) | 2023.08.19 |
---|---|
[5주차/DL2팀/논문리뷰] LSTM (0) | 2023.08.09 |
[4주차/DL2팀/논문 리뷰] (0) | 2023.08.08 |
[4주차 / DL 1팀 / 논문 리뷰 ] Deep Residual Learning for Image Recognition (0) | 2023.08.03 |
[3주차/DL1팀/논문 리뷰] Batch Normalization (0) | 2023.07.27 |
댓글 영역