2
Tại sao các RNN với các đơn vị LSTM cũng có thể bị ảnh hưởng bởi độ nổ của gradient?
Tôi có kiến thức cơ bản về cách RNNs (và đặc biệt, với các đơn vị LSTM) hoạt động. Tôi có một ý tưởng hình ảnh về kiến trúc của một đơn vị LSTM, đó là một ô và một vài cổng, điều chỉnh dòng chảy của các giá trị. …