Sử dụng nhiều lớp LSTM
với bỏ học, có nên đặt bỏ học trên tất cả các lớp ẩn cũng như các lớp Mật độ đầu ra không? Trong bài báo của Hinton (đề xuất Dropout), anh ta chỉ đưa Dropout lên các lớp dày đặc, nhưng đó là bởi vì các lớp bên trong ẩn là chập chững.
Rõ ràng, tôi có thể kiểm tra mô hình cụ thể của mình, nhưng tôi tự hỏi liệu có sự đồng thuận về điều này không?