Làm thế nào có thể giảm độ dốc ngẫu nhiên tránh được vấn đề tối thiểu cục bộ?


Câu trả lời:


21

Thuật toán stochastic gradient (SG) hoạt động giống như thuật toán ủ (SA) mô phỏng, trong đó tốc độ học tập của SG có liên quan đến nhiệt độ của SA. Tính ngẫu nhiên hoặc tiếng ồn do SG giới thiệu cho phép thoát khỏi cực tiểu địa phương để đạt mức tối thiểu tốt hơn. Tất nhiên, nó phụ thuộc vào việc bạn giảm tốc độ học tập nhanh như thế nào. Đọc phần 4.2, của Stochastic Gradient Learning trong Mạng nơ-ron (pdf) , trong đó phần này được giải thích chi tiết hơn.


4
Đừng tìm hiểu kỹ Mục 4.1as, trong đó định lý thứ hai dành cho một trường hợp giới hạn của các hàm không liên quan, nói rằng nó chỉ hội tụ (với các mẫu vô hạn) đến một số điểm với độ dốc 0. Nó có thể không phải là tối thiểu toàn cầu hoặc thậm chí có thể là tối đa . SGD thú vị hơn vì những lý do thực tế hơn như học tập phân tán, không chắc chắn rằng nó sẽ "tránh" mức tối thiểu của địa phương.
nil

2

Trong độ dốc dốc ngẫu nhiên, các tham số được ước tính cho mọi quan sát, trái ngược với toàn bộ mẫu ở độ dốc dốc thông thường (độ dốc giảm dần theo lô). Đây là những gì mang lại cho nó rất nhiều ngẫu nhiên. Con đường đi xuống dốc ngẫu nhiên đi lang thang qua nhiều nơi hơn, và do đó có nhiều khả năng "nhảy ra" khỏi mức tối thiểu cục bộ và tìm mức tối thiểu toàn cầu (Lưu ý *). Tuy nhiên, độ dốc dốc ngẫu nhiên vẫn có thể bị kẹt ở mức tối thiểu cục bộ.

Lưu ý: Thông thường để giữ cho tốc độ học tập không đổi, trong trường hợp này, độ dốc dốc ngẫu nhiên không hội tụ; nó chỉ đi lang thang xung quanh cùng một điểm. Tuy nhiên, nếu tốc độ học tập giảm dần theo thời gian, nó có liên quan nghịch đảo với số lần lặp thì độ dốc dốc ngẫu nhiên sẽ hội tụ.


Không phải là sự xuống dốc ngẫu nhiên không thực sự hội tụ và chỉ là những điều kỳ diệu xung quanh một điểm nhất định. Đó sẽ là trường hợp nếu tỷ lệ học tập được giữ không đổi. Tuy nhiên, tốc độ học tập có xu hướng bằng không bởi vì theo cách này, khi thuật toán gần với mức tối thiểu của hàm lồi, nó sẽ ngừng dao động và hội tụ. Chìa khóa của bằng chứng về sự hội tụ của độ dốc ngẫu nhiên là các điều kiện áp đặt cho chuỗi tỷ lệ học tập. Xem các phương trình (6) và (27) của bài báo gốc về Robbins và Monro.
clara

2

Như đã được đề cập trong các câu trả lời trước, độ dốc dốc ngẫu nhiên có bề mặt lỗi ồn hơn nhiều do bạn đang đánh giá từng mẫu lặp đi lặp lại. Mặc dù bạn đang thực hiện một bước về mức tối thiểu toàn cầu trong độ dốc giảm dần theo lô ở mỗi kỷ nguyên (vượt qua tập huấn luyện), các bước riêng lẻ của độ dốc giảm dần độ dốc ngẫu nhiên của bạn không phải luôn luôn hướng về mức tối thiểu toàn cầu tùy thuộc vào mẫu được đánh giá.

Để hình dung điều này bằng một ví dụ hai chiều, đây là một số hình và hình vẽ từ lớp học máy của Andrew Ng.

Giảm độ dốc đầu tiên:

nhập mô tả hình ảnh ở đây

Thứ hai, giảm độ dốc ngẫu nhiên:

nhập mô tả hình ảnh ở đây

Vòng tròn màu đỏ trong hình dưới sẽ minh họa rằng việc giảm độ dốc ngẫu nhiên sẽ "tiếp tục cập nhật" ở đâu đó trong khu vực xung quanh mức tối thiểu toàn cầu nếu bạn đang sử dụng tốc độ học tập không đổi.

Vì vậy, đây là một số lời khuyên thiết thực nếu bạn đang sử dụng giảm dần độ dốc ngẫu nhiên:

1) xáo trộn tập huấn luyện trước mỗi kỷ nguyên (hoặc lặp trong biến thể "tiêu chuẩn")

2) sử dụng tỷ lệ học tập thích ứng để "ủ" gần với mức tối thiểu toàn cầu


Tại sao bạn muốn xáo trộn tập huấn luyện trước mỗi kỷ nguyên? Thuật toán của SGD chọn các ví dụ đào tạo một cách ngẫu nhiên.
Vladislavs Dovgalecs

Việc xáo trộn về cơ bản là một cách để làm cho nó chọn các mẫu đào tạo đó một cách ngẫu nhiên. Trong các triển khai của mình, tôi thường xáo trộn tập huấn luyện trước mỗi kỷ nguyên và sau đó chỉ forlướt qua bộ được xáo trộn

2
Hừm, trên wikipedia, thuật toán SGD được mô tả là "không thay thế", tuy nhiên, Bottou mô tả nó giống như bạn đã làm (Bottou, Léon. "Học máy quy mô lớn với độ dốc dốc ngẫu nhiên." Tiến trình của COMPSTAT'2010. Physica-Verlag. HD, 2010 177-186.), Và tôi nghĩ ở đây tôi sẽ có xu hướng tin tưởng vào Bottou hơn mục Wikipedia này.

4
@xeon Kiểm tra bài viết này , lập luận rằng lấy mẫu mà không thay thế là tốt hơn. Sự hiểu biết của tôi là không có sự thay thế có xu hướng vượt trội về mặt thực nghiệm, nhưng các phân tích lý thuyết không có sẵn cho đến gần đây.
Dougal

1
@xeon Tôi chỉ xem các slide PDF của mình từ khóa học của Andrew Ng, và có vẻ như anh ấy đã mô tả nó như trên Wikipedia (biến thể "không thay thế") không giống như Bottou. Tôi đã tải lên một ảnh chụp màn hình ở đây
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.