Vì vậy, những gì bắt với LSTM?


12

Tôi đang mở rộng kiến ​​thức về gói Keras và tôi đã sử dụng một số mô hình có sẵn. Tôi có một vấn đề phân loại nhị phân NLP mà tôi đang cố gắng giải quyết và đang áp dụng các mô hình khác nhau.

Sau khi làm việc với một số kết quả và đọc nhiều hơn về LSTM, có vẻ như phương pháp này vượt trội hơn nhiều so với bất kỳ điều gì khác mà tôi đã thử (trên nhiều bộ dữ liệu). Tôi tiếp tục suy nghĩ, "tại sao / khi nào bạn sẽ không sử dụng LSTM?". Việc sử dụng các cổng bổ sung, vốn có của LSTM, có ý nghĩa hoàn hảo với tôi sau khi có một số mô hình bị biến mất độ dốc.

Vì vậy, những gì bắt với LSTM? Họ làm không tốt ở đâu? Tôi biết không có thuật toán "một kích thước phù hợp với tất cả", do đó phải có nhược điểm đối với LSTM.


Hãy thử GRU, chúng giống như LSTM nhưng cần ít bộ nhớ hơn và đào tạo nhanh hơn.
Vivek Khetan

Câu trả lời:


11

Bạn đúng rằng các LSTM hoạt động rất tốt đối với một số vấn đề, nhưng một số nhược điểm là:

  • LSTM mất nhiều thời gian hơn để đào tạo
  • LSTM đòi hỏi nhiều bộ nhớ hơn để đào tạo
  • LSTM rất dễ phù hợp
  • Bỏ học khó hơn nhiều để thực hiện trong các LSTM
  • LSTM rất nhạy cảm với các khởi tạo trọng lượng ngẫu nhiên khác nhau

Chúng được so sánh với một mô hình đơn giản hơn như mạng lưới 1D chẳng hạn.

Ba mục đầu tiên là do các LSTM có nhiều tham số hơn.


3
Đồng ý, và tôi nghĩ rằng quá mức (hay còn gọi là khái quát kém) có lẽ là rủi ro lớn nhất. Hãy chắc chắn rằng bạn có một chiến lược tốt để thực hiện xác nhận mô hình.
tom
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.