Sự khác biệt giữa phản hồi RNN và LSTM / GRU


19

Tôi đang cố gắng hiểu các kiến ​​trúc mạng thần kinh tái phát (RNN) khác nhau được áp dụng cho dữ liệu chuỗi thời gian và tôi hơi bối rối với các tên khác nhau thường được sử dụng khi mô tả RNN. Là cấu trúc của bộ nhớ ngắn hạn (LSTM) và Đơn vị lặp lại có kiểm soát (GRU) về cơ bản là một RNN với một vòng phản hồi?


2
Hãy đánh vần các từ viết tắt của bạn.
gung - Phục hồi Monica

Câu trả lời:


33

Tất cả các RNN có các vòng phản hồi trong lớp lặp lại. Điều này cho phép họ duy trì thông tin trong 'bộ nhớ' theo thời gian. Nhưng, có thể khó đào tạo RNN tiêu chuẩn để giải quyết các vấn đề đòi hỏi phải học phụ thuộc thời gian dài hạn. Điều này là do độ dốc của hàm mất phân rã theo cấp số nhân theo thời gian (được gọi là vấn đề độ dốc biến mất). Mạng LSTM là một loại RNN sử dụng các đơn vị đặc biệt ngoài các đơn vị tiêu chuẩn. Các đơn vị LSTM bao gồm một "ô nhớ" có thể duy trì thông tin trong bộ nhớ trong thời gian dài. Một bộ cổng được sử dụng để kiểm soát khi thông tin đi vào bộ nhớ, khi nó xuất ra và khi nó bị lãng quên. Kiến trúc này cho phép họ học các phụ thuộc dài hạn. GRU tương tự như LSTM, nhưng sử dụng cấu trúc đơn giản hóa.

Bài viết này cung cấp một cái nhìn tổng quan tốt:

Chung et al. (2014) . Đánh giá thực nghiệm về mạng nơ ron tái phát có kiểm soát trên mô hình hóa trình tự.


5

Các RNN tiêu chuẩn (Mạng thần kinh tái phát) bị biến mất và bùng nổ các vấn đề về độ dốc. Các LSTM (Bộ nhớ dài hạn) giải quyết các vấn đề này bằng cách giới thiệu các cổng mới, chẳng hạn như cổng đầu vào và cổng quên, cho phép kiểm soát tốt hơn dòng chảy gradient và cho phép bảo quản tốt hơn các phụ thuộc tầm xa của Nott.


2

Các LSTM thường được gọi là RNN ưa thích. Vanilla RNNs không có trạng thái tế bào. Chúng chỉ có các trạng thái ẩn và những trạng thái ẩn đó đóng vai trò là bộ nhớ cho RNN.

Trong khi đó, LSTM có cả trạng thái tế bào và trạng thái ẩn. Trạng thái ô có khả năng loại bỏ hoặc thêm thông tin vào ô, được điều chỉnh bởi "cổng". Và vì "tế bào" này, theo lý thuyết, LSTM sẽ có thể xử lý sự phụ thuộc lâu dài (trong thực tế, rất khó để làm như vậy.)


-1

TL; DR

Chúng tôi có thể nói rằng, khi chúng tôi chuyển từ RNN sang LSTM (Bộ nhớ ngắn hạn dài hạn), chúng tôi sẽ giới thiệu nhiều hơn và nhiều nút điều khiển hơn, điều khiển luồng và trộn Đầu vào theo Trọng lượng được đào tạo. Và do đó, mang lại sự linh hoạt hơn trong việc kiểm soát đầu ra. Vì vậy, LSTM cung cấp cho chúng tôi khả năng Kiểm soát nhiều nhất và do đó, Kết quả tốt hơn. Nhưng cũng đi kèm với sự phức tạp và chi phí hoạt động nhiều hơn.

Tài liệu tham khảo


[ LƯU Ý ]:

LSTM là phiên bản mở rộng của GRU.


Hình ảnh này cho thấy sự khác biệt giữa chúng:

nhập mô tả hình ảnh ở đây

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.