Tại sao không luôn luôn sử dụng kỹ thuật tối ưu hóa ADAM?


13

Có vẻ như trình tối ưu hóa Ước tính Khoảnh khắc Thích ứng (Adam) hầu như luôn hoạt động tốt hơn (nhanh hơn và đáng tin cậy hơn đến mức tối thiểu toàn cầu) khi giảm thiểu chức năng chi phí trong việc đào tạo mạng lưới thần kinh.

Tại sao không luôn luôn sử dụng Adam? Tại sao thậm chí bận tâm sử dụng RMSProp hoặc tối ưu hóa động lượng?


1
Tôi không tin có bất kỳ cách nghiêm ngặt, chính thức nào để hỗ trợ một trong hai tuyên bố. Tất cả hoàn toàn theo kinh nghiệm, vì bề mặt lỗi không rõ. Như một quy luật tự nhiên, và hoàn toàn từ kinh nghiệm m, ADAM làm tốt khi những người khác thất bại (phân đoạn cá thể), mặc dù không phải không có nhược điểm (hội tụ không đơn điệu)
Alex

2
Adam nhanh hơn để hội tụ. SGD chậm hơn nhưng khái quát tốt hơn. Vì vậy, cuối cùng tất cả phụ thuộc vào hoàn cảnh cụ thể của bạn.
agcala

Câu trả lời:



4

Bạn cũng nên xem bài đăng này để so sánh các trình tối ưu hóa độ dốc khác nhau. Như bạn có thể thấy bên dưới Adam rõ ràng không phải là trình tối ưu hóa tốt nhất cho một số nhiệm vụ vì nhiều người hội tụ tốt hơn.


Chỉ dành cho hồ sơ: Trong bài viết được liên kết, họ đề cập đến một số sai sót của ADAM và trình bày AMSGrad như một giải pháp. Tuy nhiên, họ kết luận rằng liệu AMSGrad có vượt trội hơn ADAM trong thực tiễn hay không (tại thời điểm viết bài) là không kết luận.
Lus
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.