Phương pháp tối ưu hóa nào hoạt động tốt nhất cho các LSTM?

19

Tôi đã sử dụng theano để thử nghiệm các LSTM và đang tự hỏi phương pháp tối ưu hóa nào (SGD, Adagrad, Adadelta, RMSprop, Adam, v.v.) hoạt động tốt nhất cho các LSTM? Có bất kỳ tài liệu nghiên cứu về chủ đề này?

Ngoài ra, câu trả lời có phụ thuộc vào loại ứng dụng tôi đang sử dụng LSTM không? Nếu vậy, tôi đang sử dụng các LSTM để phân loại văn bản (trong đó văn bản được chuyển đổi đầu tiên thành các vectơ từ).

Cuối cùng, câu trả lời sẽ giống hay khác nhau đối với RNN? Bất kỳ con trỏ đến tài liệu nghiên cứu, hoặc cái nhìn sâu sắc cá nhân sẽ được đánh giá cao!

Các LSTM dường như khá mạnh mẽ và tôi thích tìm hiểu thêm về cách sử dụng chúng tốt nhất.

— người hoan nghênh
nguồn

7

Trớ trêu thay, các Trình tối ưu hóa tốt nhất cho các LSTM lại là các LSTM: https://arxiv.org/abs/1606.04474 Học cách học theo độ dốc giảm dần theo độ dốc.

Ý tưởng cơ bản là sử dụng mạng thần kinh (cụ thể ở đây là mạng LSTM) để cùng tìm hiểu và dạy độ dốc của mạng ban đầu. Nó được gọi là meta learning.

Phương pháp này, trong khi được đề xuất bởi Juergen Schmidhuber vào năm 2000, gần đây chỉ được chứng minh là vượt trội so với các trình tối ưu hóa khác trong đào tạo RNN. (xem bài báo gốc cho một hình ảnh đẹp)

— Anona112
nguồn

Bạn có thể mở rộng bằng cách cho chúng tôi biết những gì liên kết nói?

— mdewey

sửa đổi cho niềm vui của bạn. Vì câu hỏi ban đầu là "Phương pháp tối ưu hóa nào hoạt động tốt nhất cho các LSTM?" không phải "Làm thế nào để các phương thức tối ưu hóa tốt nhất cho các LSTM hoạt động" Tôi để nó ở đó.

— Anona112

4

Nhìn chung không có bằng chứng rõ ràng về việc sử dụng phương pháp tối ưu hóa nào trong kịch bản nào. Đã có một số phân tích trong hành vi của các phương pháp này trong các tình huống khác nhau tuy nhiên không có gì là kết luận. Nếu bạn muốn đi sâu vào công cụ này thì tôi khuyên bạn nên: http : // Vogue.nips.cc/apers/5486-identifying-and-attacking-the-sadd-point-probols-in-high-dimensional-non-convex- tối ưu hóa.pdf

Để ít nhất cung cấp cho bạn phần nào câu trả lời, tôi sẽ lập luận rằng thường thì cấu hình của thói quen tối ưu hóa của bạn quan trọng hơn chính thói quen thực tế.

Ngoài ra, tôi khuyên bạn nên xem xét các giấy tờ để xem những kỹ thuật nào đang được sử dụng. Alex Graves từ ví dụ đã có lợi khi sử dụng RMSprop trong hầu hết các ấn phẩm của mình về việc tạo ra các chuỗi.

— Sjoerd
nguồn