Tại sao thuật toán giảm dần Newton Yên-miễn phí Newton được sử dụng trong thực tế?

Gần đây tôi đã đọc một bài báo của Yann Dauphin et al. Xác định và tấn công vấn đề điểm yên trong tối ưu hóa không lồi chiều cao , trong đó họ giới thiệu một thuật toán gốc thú vị có tên là Yên không có Newton , dường như được điều chỉnh chính xác để tối ưu hóa mạng thần kinh và không bị kẹt ở các điểm yên ngựa như phương pháp đặt hàng đầu tiên như vanilla SGD.

Bài báo xuất hiện từ năm 2014, vì vậy nó không có gì mới, tuy nhiên, tôi chưa thấy nó được sử dụng "trong tự nhiên". Tại sao phương pháp này không được sử dụng? Là tính toán Hessian quá cấm đối với các vấn đề / mạng có kích thước thế giới thực? Thậm chí có một số triển khai mã nguồn mở của thuật toán này, có thể được sử dụng với một số khung học tập sâu chính?

Cập nhật tháng 2 năm 2019: hiện đã có một triển khai: https://github.com/dave-fernandes/SaddFreeOptimizer )

optimization deep-learning gradient-descent

— Jan Kukacka
nguồn

Câu hỏi hay, tôi không thể tìm thấy bất cứ điều gì. Tuy nhiên, mã giả rất đơn giản để bạn có thể tự mình thử, trong trường hợp đó có một số chi tiết thực hiện hữu ích trong một trong các luận án tiến sĩ của tác giả (trang 103, paccorus.bib.umontreal.ca/xmlui/bitstream/handle / 1866/13710 / Ngày )

— galoosh33

Tôi tìm thấy tài liệu tham khảo cho cùng một bài viết này trong một bài đăng trên Blog của Uber Deep-Neuroevolution. Liên kết: eng.uber.com/deep-neuroevolution Bạn có thể hỏi tác giả nếu họ có bất kỳ triển khai trực tuyến / chia sẻ qua GitHub.

— Cantren

đây là một triển khai cho TensorFlow: github.com/dave-fernandes/SaddFreeOptimizer

— Dave F

Nếu tôi phải đoán, giả định của tôi sẽ là việc tính toán + đảo ngược Hessian là không thực tế khi mô hình của bạn có hàng triệu tham số.

— Sycorax nói Phục hồi lại

Bạn có thể tinh chỉnh câu hỏi của bạn từ "có thực hiện" không? Điều đó dường như đủ khả năng, có / không có câu trả lời & / hoặc âm thanh giống như một yêu cầu phần mềm (không có chủ đề ở đây). Câu hỏi của bạn có thể được xây dựng thành một cái gì đó như, "những khó khăn nào giải thích tại sao dường như không có nhiều triển khai hơn"?

— gung - Phục hồi Monica

Tối ưu hóa tốt hơn không nhất thiết có nghĩa là một mô hình tốt hơn. Cuối cùng, điều chúng tôi quan tâm là mô hình tổng quát tốt như thế nào, và không nhất thiết là hiệu suất trên bộ huấn luyện tốt như thế nào. Các kỹ thuật tối ưu hóa của Fancier thường hoạt động tốt hơn và hội tụ nhanh hơn trên tập huấn luyện, nhưng không phải lúc nào cũng khái quát hóa cũng như các thuật toán cơ bản. Ví dụ , bài viết này cho thấy SGD có thể khái quát tốt hơn trình tối ưu hóa ADAM. Đây cũng có thể là trường hợp với một số thuật toán tối ưu hóa thứ hai.

[Chỉnh sửa] Đã xóa điểm đầu tiên vì nó không áp dụng ở đây. Cảm ơn bayerj đã chỉ ra điều này.

— Soroush
nguồn

Mặc dù tôi đồng ý với điểm thứ hai, nhưng điểm thứ nhất không hợp lệ ở đây. Các tác giả đề xuất chỉ tối ưu hóa trong không gian con Krylov, không đòi hỏi độ phức tạp bậc hai.

— bayerj