Những lợi thế của việc xếp chồng nhiều LSTM là gì?


25

Những lợi thế là gì, tại sao một người sẽ sử dụng nhiều LSTM, xếp cạnh nhau, trong một mạng lưới sâu? Tôi đang sử dụng LSTM để thể hiện một chuỗi các đầu vào dưới dạng một đầu vào. Vì vậy, một khi tôi có đại diện duy nhất đó, tại sao tôi lại vượt qua nó một lần nữa?

Tôi hỏi điều này bởi vì tôi đã thấy điều này trong một chương trình tạo ngôn ngữ tự nhiên.


1
Bạn thực sự có nghĩa là các LSTM được xếp cạnh nhau như theo chiều ngang (dọc theo các bước thời gian) hay bạn có nghĩa là xếp chồng theo chiều dọc (nhiều ô LSTM cho mỗi bước thời gian)?
wợi

Câu trả lời:


18

Tôi nghĩ rằng bạn đang đề cập đến các lớp LSTM xếp chồng theo chiều dọc (giả sử trục ngang là trục thời gian.

Trong trường hợp đó, lý do chính để xếp LSTM là để cho phép độ phức tạp của mô hình lớn hơn. Trong trường hợp mạng feedforward đơn giản, chúng ta xếp chồng các lớp để tạo ra một biểu diễn tính năng phân cấp của dữ liệu đầu vào để sau đó sử dụng cho một số tác vụ học máy. Điều tương tự cũng áp dụng cho các LSTM xếp chồng lên nhau.

Tại mỗi thời điểm bước một LSTM, bên cạnh đầu vào định kỳ. Nếu đầu vào đã là kết quả của lớp LSTM (hoặc lớp tiếp theo) thì LSTM hiện tại có thể tạo ra một biểu diễn tính năng phức tạp hơn của đầu vào hiện tại.

Bây giờ sự khác biệt giữa việc có một lớp tiếp liệu giữa đầu vào tính năng và lớp LSTM và có một lớp LSTM khác là lớp chuyển tiếp nguồn cấp dữ liệu (nói là một lớp được kết nối đầy đủ) không nhận được phản hồi từ bước thời gian trước đó và do đó không thể giải thích được hoa văn. Có một LSTM thay thế (ví dụ: sử dụng biểu diễn LSTM xếp chồng) các mẫu đầu vào phức tạp hơn có thể được mô tả ở mọi lớp


4
Các tế bào LSTM trong một lớp đã được kết nối đầy đủ, thường xuyên với nhau (đầu ra của một lớp có kết nối với tất cả các đầu vào của cùng một lớp). Do đó, các ô riêng lẻ có thể kết hợp các tính năng trên đầu ra của các ô khác, tất cả trong một lớp. Bạn có thể giải thích lý do tại sao nhiều lớp dẫn đến các mẫu phức tạp hơn, xin vui lòng?
danijar

6

Từ 1}:

Mặc dù về mặt lý thuyết không rõ ràng sức mạnh bổ sung có được từ kiến ​​trúc sâu hơn là gì, nhưng theo quan sát thực tế, RNN sâu hoạt động tốt hơn so với những người nông hơn trong một số nhiệm vụ. Cụ thể, Sutskever et al (2014) báo cáo rằng kiến ​​trúc sâu 4 lớp rất quan trọng trong việc đạt được hiệu suất dịch máy tốt trong khung giải mã bộ mã hóa. Irsoy và Cardie (2014) cũng báo cáo kết quả được cải thiện từ việc chuyển từ BI-RNN một lớp sang kiến ​​trúc với nhiều lớp. Nhiều công trình khác báo cáo kết quả bằng cách sử dụng kiến ​​trúc RNN phân lớp, nhưng không so sánh rõ ràng với RNN 1 lớp.

Tài chính


Tài liệu tham khảo:


2

Từ việc chơi xung quanh với LSTM để phân loại trình tự, nó có tác dụng tương tự như tăng công suất mô hình trong CNN (nếu bạn quen thuộc với chúng). Vì vậy, bạn chắc chắn nhận được lợi nhuận đặc biệt là nếu bạn đang thiếu dữ liệu của bạn.

Tất nhiên là tăng gấp đôi vì bạn cũng có thể phù hợp hơn và có hiệu suất kém hơn. Trong trường hợp của tôi, tôi đã chuyển từ 1 LSTM sang stack 2 và được cải thiện khá nhiều ngay lập tức.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.