Tại sao chúng ta không sử dụng tỷ lệ học tập không liên tục cho độ dốc tốt cho những thứ khác ngoài mạng lưới thần kinh?

Văn học học sâu có đầy đủ các thủ thuật thông minh với việc sử dụng tỷ lệ học tập không liên tục theo độ dốc. Những thứ như phân rã theo cấp số nhân, RMSprop, Adagrad, v.v ... rất dễ thực hiện và có sẵn trong mọi gói học sâu, nhưng dường như chúng không tồn tại bên ngoài mạng lưới thần kinh. Có lý do cho điều này? Nếu mọi người chỉ đơn giản là không quan tâm, có lý do tại sao chúng ta không phải quan tâm bên ngoài mạng lưới thần kinh?

— Tim
nguồn

Tôi nghĩ rằng phương pháp tìm kiếm dòng hoặc vùng tin cậy là tỷ lệ học tập "không đổi".

— Haitao Du

Có rất nhiều phương pháp gradient không cố định được phát triển độc lập với NN. Barzilai-Borwein GD và Nesterov GD là hai ví dụ nổi bật.

— Sycorax nói phục hồi Monica

@Sycorax nhưng chúng có thực sự được sử dụng hàng ngày ngoài NN không?

— Tim

@Tim tôi không thể nói. Khi tôi cần thực hiện tìm kiếm địa phương bên ngoài NN, tôi có thể sử dụng các phương pháp bậc hai. Nhưng tôi rất hào hứng khi tìm hiểu về các phương pháp GD nhanh hơn trong dịp mà tôi có thể có một mẹo dễ thương trong túi sau của mình.

— Sycorax nói phục hồi Monica

Điều đáng chú ý là (tôi rất ngạc nhiên) tôi đã gặp các trường hợp GBM không sử dụng tỷ lệ học tập liên tục, phần nào gây ngạc nhiên cho mọi người. Một ví dụ cụ thể là việc triển khai DART trên LightGBM. Mặc dù các giấy tờ gốc không sử dụng một LR ngày càng nhỏ hơn, việc thực hiện thực tế theo mặc định.

— usεr11852 nói Phục hồi Monic

Tuyên bố miễn trừ trách nhiệm: Tôi không có nhiều kinh nghiệm về tối ưu hóa bên ngoài mạng lưới thần kinh, vì vậy câu trả lời của tôi sẽ bị sai lệch rõ ràng, nhưng có một số điều đóng vai trò:

(Sâu) mạng lưới thần kinh có rất nhiều tham số . Điều này có một số hàm ý:

Đầu tiên, nó loại quy tắc ra các phương pháp bậc cao hơn đơn giản chỉ vì tính toán Hessian và các dẫn xuất cao hơn trở nên không khả thi. Trong các miền khác, đây có thể là một cách tiếp cận hợp lệ tốt hơn bất kỳ điều chỉnh nào đối với SGD.

Thứ hai, mặc dù SGD là tuyệt vời , nó có xu hướng chậm chính thức. Các biến thể SGD cải tiến này chủ yếu cho phép đào tạo nhanh hơn, trong khi có khả năng mất một số thuộc tính tốt đẹp của SGD . Trong các lĩnh vực khác, thời gian đào tạo SGD có thể không phải là nút cổ chai, vì vậy những cải thiện đạt được bằng cách tăng tốc nó có thể chỉ đơn giản là không đáng kể.
Đào tạo (sâu) mạng lưới thần kinh là tối ưu hóa không lồi và tôi không nhận thức được kết quả thư giãn lồi đáng kể trong lĩnh vực này. Không giống như các lĩnh vực khác, mạng lưới thần kinh không tập trung vào các giải pháp tối ưu toàn cầu có thể chứng minh được, điều này dẫn đến việc đầu tư nhiều nỗ lực hơn vào việc cải thiện các tính chất của bề mặt tổn thất và truyền tải trong quá trình tối ưu hóa.

Trong các lĩnh vực khác, sử dụng thư giãn lồi và thu được các giải pháp tối ưu toàn cầu có thể là tâm điểm quan tâm thay vì thuật toán tối ưu hóa, bởi vì một khi vấn đề được xác định là vấn đề lồi, việc lựa chọn thuật toán tối ưu hóa có thể cải thiện chất lượng của giải pháp .

Tôi cho rằng câu trả lời này không bao gồm tất cả các khía cạnh có thể và bản thân tôi cũng tò mò về những ý kiến khác.

— Jan Kukacka
nguồn

Vì vậy, về cơ bản, bạn đang nói rằng các vấn đề khác đơn giản hơn nhiều, vì vậy không cần các thủ thuật và vanilla SGD là đủ cho chúng?

— Tim

Đó là quá đơn giản hóa thông điệp của tôi. 1) một số vấn đề có thể sử dụng các phương pháp bậc cao hơn, không cần SGD thích ứng. 2) một số vấn đề không thể hưởng lợi từ cải thiện SGD do luật của Amdahl. 3) một số vấn đề có thể đưa ra giải pháp lồi và khó khăn chính là đặt chúng là lồi. Không ai trong số này nói rằng các vấn đề khác đơn giản hơn nhiều so với học sâu, thay vào đó giải thích tại sao cải thiện SGD không nằm trong tâm điểm chú ý của họ.

— Jan Kukacka

Một điểm có thể có 4: nếu bạn đã sử dụng một số phương pháp khác và làm cho nó đủ phức tạp (chiều cao, phi tuyến, không giao thoa) để hưởng lợi từ các phương pháp giảm độ dốc tinh vi, nó có thể được gọi là mạng thần kinh.

— Nathaniel

@JanKukacka Tôi biết, tôi đang tìm kiếm làm rõ vì câu trả lời của bạn là gián tiếp

— Tim