Tôi có kiến thức cơ bản về cách RNNs (và đặc biệt, với các đơn vị LSTM) hoạt động. Tôi có một ý tưởng hình ảnh về kiến trúc của một đơn vị LSTM, đó là một ô và một vài cổng, điều chỉnh dòng chảy của các giá trị.
Tuy nhiên, rõ ràng, tôi chưa hiểu đầy đủ về cách LSTM giải quyết vấn đề "biến mất và nổ độ dốc", xảy ra trong khi đào tạo, sử dụng phương pháp truyền ngược qua thời gian, một RNN thông thường. Tôi chưa có cơ hội đọc các bài báo để hiểu đầy đủ về toán học.
Câu trả lời này đưa ra lời giải thích ngắn gọn về cách RNN với các đơn vị LSTM giải quyết vấn đề "độ dốc biến mất". Về mặt toán học, lý do dường như là sự không tồn tại của một công cụ phái sinh không biến mất, tức là không có xu hướng bằng không. Do đó, tác giả tuyên bố, "có ít nhất một con đường mà độ dốc không biến mất". IMHO, lời giải thích này là một chút mơ hồ.
Trong khi đó, tôi đang đọc bài báo Trình tự học theo trình tự với Mạng lưới thần kinh (của Ilya Sutskever, Oriol Vinyals, Quốc V. Le), và trong bài báo đó, phần "3.4 Chi tiết đào tạo", nó được nêu
Mặc dù các LSTM có xu hướng không gặp phải vấn đề độ dốc biến mất, nhưng chúng có thể có độ dốc phát nổ.
Tôi đã luôn nghĩ rằng các RNN với các đơn vị LSTM giải quyết cả hai vấn đề "biến mất" và "nổ độ dốc", nhưng, rõ ràng, các RNN với các đơn vị LSTM cũng bị "nổ độ dốc".
Theo trực giác, tại sao vậy? Về mặt toán học, những lý do là gì?