Tôi đã sử dụng theano để thử nghiệm các LSTM và đang tự hỏi phương pháp tối ưu hóa nào (SGD, Adagrad, Adadelta, RMSprop, Adam, v.v.) hoạt động tốt nhất cho các LSTM? Có bất kỳ tài liệu nghiên cứu về chủ đề này?
Ngoài ra, câu trả lời có phụ thuộc vào loại ứng dụng tôi đang sử dụng LSTM không? Nếu vậy, tôi đang sử dụng các LSTM để phân loại văn bản (trong đó văn bản được chuyển đổi đầu tiên thành các vectơ từ).
Cuối cùng, câu trả lời sẽ giống hay khác nhau đối với RNN? Bất kỳ con trỏ đến tài liệu nghiên cứu, hoặc cái nhìn sâu sắc cá nhân sẽ được đánh giá cao!
Các LSTM dường như khá mạnh mẽ và tôi thích tìm hiểu thêm về cách sử dụng chúng tốt nhất.