2
Tại sao LSTM hoạt động kém hơn trong việc chốt thông tin so với mạng nơ ron tái phát vanilla
Tôi muốn hiểu rõ hơn tại sao LSTM có thể nhớ thông tin trong một khoảng thời gian dài hơn vanilla / mạng thần kinh tái phát đơn giản (SRNN) bằng cách làm lại một thử nghiệm từ bài báo Học phụ thuộc lâu dài với Gradient Descent là khó …