[Lưu ý ngày 5 tháng 4 năm 2019: Một phiên bản mới của bài báo đã được cập nhật trên arXiv với nhiều kết quả mới. Chúng tôi cũng giới thiệu các phiên bản quay lại của Momentum và NAG và chứng minh sự hội tụ theo các giả định tương tự như đối với Backtracking Gradient Descent.
Mã nguồn có sẵn trên GitHub tại liên kết: https://github.com/hank-nguyen/MBT-optimizer
Chúng tôi đã cải thiện các thuật toán để áp dụng cho DNN và đạt được hiệu suất tốt hơn các thuật toán tiên tiến như MMT, NAG, Adam, Adamax, Adagrad, ...
Điểm đặc biệt nhất của các thuật toán của chúng tôi là chúng tự động, bạn không cần phải điều chỉnh thủ công tỷ lệ học tập như thông lệ. Tinh chỉnh tự động của chúng tôi có bản chất khác với Adam, Adamax, Adagrad, ... vân vân. Thêm chi tiết trong bài báo.
]
Dựa trên các kết quả gần đây: Trong công việc chung của tôi trong bài viết này https://arxiv.org/abs/1808.05160
f
Dựa trên những điều trên, chúng tôi đã đề xuất một phương pháp mới trong học sâu, ngang bằng với các phương pháp hiện đại nhất và không cần điều chỉnh thủ công tỷ lệ học tập. ( Tóm lại , ý tưởng là bạn chạy backtracking gradient giảm dần một khoảng thời gian nhất định, cho đến khi bạn thấy rằng tốc độ học tập, thay đổi theo mỗi lần lặp, sẽ ổn định. Chúng tôi hy vọng sự ổn định này, đặc biệt là ở điểm quan trọng C ^ 2 và không suy biến, vì kết quả hội tụ mà tôi đã đề cập ở trên. Tại thời điểm đó, bạn chuyển sang phương pháp giảm độ dốc tiêu chuẩn. Vui lòng xem bài viết được trích dẫn để biết thêm chi tiết. Phương pháp này cũng có thể được áp dụng cho các thuật toán tối ưu khác. .)
PS Liên quan đến câu hỏi ban đầu của bạn về phương pháp giảm độ dốc tiêu chuẩn, theo hiểu biết của tôi chỉ trong trường hợp đạo hàm của bản đồ là trên toàn cầu Lipschitz và tốc độ học tập đủ nhỏ để phương pháp giảm độ dốc tiêu chuẩn được chứng minh là hội tụ. [Nếu những điều kiện này không được thỏa mãn, có những ví dụ đơn giản cho thấy rằng không thể có kết quả hội tụ, hãy xem bài viết được trích dẫn cho một số người.] Trong bài báo được trích dẫn ở trên, chúng tôi lập luận rằng về lâu dài phương pháp giảm độ dốc quay ngược sẽ trở thành phương pháp giảm độ dốc tiêu chuẩn, đưa ra lời giải thích tại sao phương pháp giảm độ dốc tiêu chuẩn thường hoạt động tốt trong thực tế.