Gần đây tôi đã đọc một bài báo của Yann Dauphin et al. Xác định và tấn công vấn đề điểm yên trong tối ưu hóa không lồi chiều cao , trong đó họ giới thiệu một thuật toán gốc thú vị có tên là Yên không có Newton , dường như được điều chỉnh chính xác để tối ưu hóa mạng thần kinh và không bị kẹt ở các điểm yên ngựa như phương pháp đặt hàng đầu tiên như vanilla SGD.
Bài báo xuất hiện từ năm 2014, vì vậy nó không có gì mới, tuy nhiên, tôi chưa thấy nó được sử dụng "trong tự nhiên". Tại sao phương pháp này không được sử dụng? Là tính toán Hessian quá cấm đối với các vấn đề / mạng có kích thước thế giới thực? Thậm chí có một số triển khai mã nguồn mở của thuật toán này, có thể được sử dụng với một số khung học tập sâu chính?
Cập nhật tháng 2 năm 2019: hiện đã có một triển khai: https://github.com/dave-fernandes/SaddFreeOptimizer )