Tôi nghĩ rằng bạn đang đề cập đến các lớp LSTM xếp chồng theo chiều dọc (giả sử trục ngang là trục thời gian.
Trong trường hợp đó, lý do chính để xếp LSTM là để cho phép độ phức tạp của mô hình lớn hơn. Trong trường hợp mạng feedforward đơn giản, chúng ta xếp chồng các lớp để tạo ra một biểu diễn tính năng phân cấp của dữ liệu đầu vào để sau đó sử dụng cho một số tác vụ học máy. Điều tương tự cũng áp dụng cho các LSTM xếp chồng lên nhau.
Tại mỗi thời điểm bước một LSTM, bên cạnh đầu vào định kỳ. Nếu đầu vào đã là kết quả của lớp LSTM (hoặc lớp tiếp theo) thì LSTM hiện tại có thể tạo ra một biểu diễn tính năng phức tạp hơn của đầu vào hiện tại.
Bây giờ sự khác biệt giữa việc có một lớp tiếp liệu giữa đầu vào tính năng và lớp LSTM và có một lớp LSTM khác là lớp chuyển tiếp nguồn cấp dữ liệu (nói là một lớp được kết nối đầy đủ) không nhận được phản hồi từ bước thời gian trước đó và do đó không thể giải thích được hoa văn. Có một LSTM thay thế (ví dụ: sử dụng biểu diễn LSTM xếp chồng) các mẫu đầu vào phức tạp hơn có thể được mô tả ở mọi lớp