Bỏ học trên các lớp LSTM nào?

11

Sử dụng nhiều lớp LSTMvới bỏ học, có nên đặt bỏ học trên tất cả các lớp ẩn cũng như các lớp Mật độ đầu ra không? Trong bài báo của Hinton (đề xuất Dropout), anh ta chỉ đưa Dropout lên các lớp dày đặc, nhưng đó là bởi vì các lớp bên trong ẩn là chập chững.

Rõ ràng, tôi có thể kiểm tra mô hình cụ thể của mình, nhưng tôi tự hỏi liệu có sự đồng thuận về điều này không?

— BigBadMe
nguồn

3

một số thảo luận tốt về việc bỏ học trong các mạng tái phát trong bài báo này nếu bạn quan tâm: arxiv.org/abs/1512.05287 Gal, Yarin và Zoubin Ghahramani. "Một ứng dụng dựa trên lý thuyết của việc bỏ học trong các mạng thần kinh tái phát." Những tiến bộ trong hệ thống xử lý thông tin thần kinh. 2016.

— redhqs

2

Có vẻ như để xác nhận những gì @Media đã nói bên dưới

— BigBadMe

12

Tôi không muốn thêm thả ra trong LSTMcác tế bào vì một lý do cụ thể và rõ ràng. LSTMslà tốt cho các điều khoản dài hạn nhưng một điều quan trọng về chúng là chúng không tốt trong việc ghi nhớ nhiều thứ cùng một lúc. Logic của việc bỏ học là để thêm tiếng ồn vào các nơ-ron để không bị phụ thuộc vào bất kỳ nơ-ron cụ thể nào. Bằng cách thêm thả ra cho LSTMcác tế bào, có một cơ hội để quên một cái gì đó không nên quên. Do đó, giống như CNNstôi luôn thích sử dụng thả ra trong các lớp dày đặc sau các LSTMlớp.

— Phương tiện truyền thông
nguồn

1

Tôi hiểu những gì bạn đang nói, và nó có ý nghĩa, nhưng sau đó, tại sao việc triển khai tế bào LSTM trong Keras hoặc Tensorflow cung cấp khả năng chỉ định bỏ học (và bỏ học định kỳ) nếu thực tế, nó sẽ làm suy yếu cách thức LSTM được cho là chức năng?

— BigBadMe

3

Trong CNNsđó hoàn toàn chấp nhận được việc không sử dụng chúng trong các lớp đối lưu do số lượng trọng lượng nhỏ trong các lớp chập. Mặt LSTMskhác, số lượng trọng lượng không nhỏ. Như tôi đã đề cập trong các nhiệm vụ có rất nhiều thứ phải ghi nhớ, tôi cố gắng không sử dụng bỏ học nhưng nó giống như các động từ mà bạn không có nhiều phụ thuộc, tôi đoán nó không tệ lắm. Nhân tiện, đó là kinh nghiệm của tôi. Có thể có câu trả lời khác cho các lĩnh vực ứng dụng khác nhau.

— Truyền thông

1

Giải thích tuyệt vời bằng cả hai câu trả lời! (+ 1)

— Aditya

5

Không có sự đồng thuận có thể được chứng minh trên tất cả các loại mô hình.

Nghĩ đến việc bỏ học như một hình thức chính quy hóa, mức độ áp dụng của nó (và ở đâu), vốn sẽ phụ thuộc vào loại và kích thước của tập dữ liệu, cũng như mức độ phức tạp của mô hình được xây dựng của bạn (mức độ lớn của nó).

— n1k31t4
nguồn