Liệu độ dốc gốc luôn hội tụ đến mức tối ưu?


20

Tôi tự hỏi liệu có bất kỳ kịch bản trong đó giảm dần độ dốc không hội tụ đến mức tối thiểu.

Tôi biết rằng độ dốc không phải lúc nào cũng được đảm bảo để hội tụ đến mức tối ưu toàn cầu. Tôi cũng nhận thức được rằng nó có thể phân kỳ từ mức tối ưu nếu, giả sử, kích thước bước quá lớn. Tuy nhiên, dường như với tôi, nếu nó chuyển hướng từ một số tối ưu, thì cuối cùng nó sẽ đi đến một tối ưu khác.

Do đó, độ dốc gốc sẽ được đảm bảo để hội tụ đến mức tối ưu cục bộ hoặc toàn cầu. Có đúng không? Nếu không, bạn có thể vui lòng cung cấp một ví dụ thô?


1
Hy vọng liên kết này sẽ giúp ích trong tương lai .. datascience.stackexchange.com/a/28417/35644
Aditya

1
Xem câu trả lời này để biết 3 ví dụ cụ thể và đơn giản, bao gồm bằng chứng, hình ảnh và mã tạo ra hình ảnh động của độ dốc gốc
Oren Milman

Câu trả lời:


26

Gradient Descent là một thuật toán được thiết kế để tìm các điểm tối ưu, nhưng những điểm tối ưu này không nhất thiết phải là toàn cầu. Và có, nếu nó xảy ra rằng nó phân kỳ từ một vị trí địa phương, nó có thể hội tụ đến một điểm tối ưu khác nhưng xác suất của nó không quá nhiều. Lý do là kích thước bước có thể quá lớn khiến nó rút đi một điểm tối ưu và xác suất nó dao động nhiều hơn nhiều so với hội tụ.

Về độ dốc gốc có hai quan điểm chính, thời đại học máy và kỷ nguyên học sâu. Trong thời đại học máy, người ta đã cân nhắc rằng việc giảm độ dốc sẽ tìm thấy tối ưu cục bộ / toàn cầu nhưng trong thời đại học sâu, trong đó kích thước của các tính năng đầu vào quá nhiều, thực tế là xác suất rằng tất cả các tính năng được đặt ở đó có giá trị tối ưu tại một điểm không quá nhiều và thay vào đó là có vị trí tối ưu trong các chức năng chi phí, hầu hết các điểm yên ngựa đều được quan sát. Đây là một trong những lý do khiến việc đào tạo với nhiều dữ liệu và kỷ nguyên đào tạo khiến các mô hình học sâu vượt trội hơn các thuật toán khác. Vì vậy, nếu bạn huấn luyện mô hình của mình, nó sẽ tìm đường vòng hoặc sẽ tìm đường xuống dốc và không bị kẹt ở các điểm yên ngựa, nhưng bạn phải có kích cỡ bước thích hợp.

Để biết thêm trực giác tôi đề nghị bạn tham khảo ở đâyđây .


3
Chính xác. Những vấn đề này luôn xuất hiện trong lý thuyết, nhưng hiếm khi trong thực tế. Với rất nhiều kích thước, đây không phải là một vấn đề. Bạn sẽ có một cực tiểu cục bộ trong một biến, nhưng không phải ở một biến khác. Hơn nữa, độ dốc giảm dần theo lô nhỏ hoặc ngẫu nhiên đảm bảo cũng giúp tránh mọi cực tiểu cục bộ.
Ricardo Cruz

3
@RicardoCruz vâng, tôi đồng ý thưa ngài
Truyền thông

12

Ngoài các điểm bạn đã đề cập (hội tụ đến mức tối thiểu không toàn cầu và kích thước bước lớn có thể dẫn đến thuật toán không hội tụ), "phạm vi uốn" cũng có thể là một vấn đề.

Hãy xem xét loại chức năng "ghế ngả" sau đây.

nhập mô tả hình ảnh ở đây

Rõ ràng, điều này có thể được xây dựng sao cho có một phạm vi ở giữa trong đó độ dốc là vectơ 0. Trong phạm vi này, thuật toán có thể bị mắc kẹt vô thời hạn. Điểm viêm thường không được coi là cực trị cục bộ.



3

[Lưu ý ngày 5 tháng 4 năm 2019: Một phiên bản mới của bài báo đã được cập nhật trên arXiv với nhiều kết quả mới. Chúng tôi cũng giới thiệu các phiên bản quay lại của Momentum và NAG và chứng minh sự hội tụ theo các giả định tương tự như đối với Backtracking Gradient Descent.

Mã nguồn có sẵn trên GitHub tại liên kết: https://github.com/hank-nguyen/MBT-optimizer

Chúng tôi đã cải thiện các thuật toán để áp dụng cho DNN và đạt được hiệu suất tốt hơn các thuật toán tiên tiến như MMT, NAG, Adam, Adamax, Adagrad, ...

Điểm đặc biệt nhất của các thuật toán của chúng tôi là chúng tự động, bạn không cần phải điều chỉnh thủ công tỷ lệ học tập như thông lệ. Tinh chỉnh tự động của chúng tôi có bản chất khác với Adam, Adamax, Adagrad, ... vân vân. Thêm chi tiết trong bài báo.

]

Dựa trên các kết quả gần đây: Trong công việc chung của tôi trong bài viết này https://arxiv.org/abs/1808.05160

f

Dựa trên những điều trên, chúng tôi đã đề xuất một phương pháp mới trong học sâu, ngang bằng với các phương pháp hiện đại nhất và không cần điều chỉnh thủ công tỷ lệ học tập. ( Tóm lại , ý tưởng là bạn chạy backtracking gradient giảm dần một khoảng thời gian nhất định, cho đến khi bạn thấy rằng tốc độ học tập, thay đổi theo mỗi lần lặp, sẽ ổn định. Chúng tôi hy vọng sự ổn định này, đặc biệt là ở điểm quan trọng C ^ 2 và không suy biến, vì kết quả hội tụ mà tôi đã đề cập ở trên. Tại thời điểm đó, bạn chuyển sang phương pháp giảm độ dốc tiêu chuẩn. Vui lòng xem bài viết được trích dẫn để biết thêm chi tiết. Phương pháp này cũng có thể được áp dụng cho các thuật toán tối ưu khác. .)

PS Liên quan đến câu hỏi ban đầu của bạn về phương pháp giảm độ dốc tiêu chuẩn, theo hiểu biết của tôi chỉ trong trường hợp đạo hàm của bản đồ là trên toàn cầu Lipschitz và tốc độ học tập đủ nhỏ để phương pháp giảm độ dốc tiêu chuẩn được chứng minh là hội tụ. [Nếu những điều kiện này không được thỏa mãn, có những ví dụ đơn giản cho thấy rằng không thể có kết quả hội tụ, hãy xem bài viết được trích dẫn cho một số người.] Trong bài báo được trích dẫn ở trên, chúng tôi lập luận rằng về lâu dài phương pháp giảm độ dốc quay ngược sẽ trở thành phương pháp giảm độ dốc tiêu chuẩn, đưa ra lời giải thích tại sao phương pháp giảm độ dốc tiêu chuẩn thường hoạt động tốt trong thực tế.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.