Tại sao không luôn luôn sử dụng kỹ thuật tối ưu hóa ADAM?

13

Có vẻ như trình tối ưu hóa Ước tính Khoảnh khắc Thích ứng (Adam) hầu như luôn hoạt động tốt hơn (nhanh hơn và đáng tin cậy hơn đến mức tối thiểu toàn cầu) khi giảm thiểu chức năng chi phí trong việc đào tạo mạng lưới thần kinh.

Tại sao không luôn luôn sử dụng Adam? Tại sao thậm chí bận tâm sử dụng RMSProp hoặc tối ưu hóa động lượng?

neural-network optimization

— Yêu cầu
nguồn

1

Tôi không tin có bất kỳ cách nghiêm ngặt, chính thức nào để hỗ trợ một trong hai tuyên bố. Tất cả hoàn toàn theo kinh nghiệm, vì bề mặt lỗi không rõ. Như một quy luật tự nhiên, và hoàn toàn từ kinh nghiệm m, ADAM làm tốt khi những người khác thất bại (phân đoạn cá thể), mặc dù không phải không có nhược điểm (hội tụ không đơn điệu)

— Alex

2

Adam nhanh hơn để hội tụ. SGD chậm hơn nhưng khái quát tốt hơn. Vì vậy, cuối cùng tất cả phụ thuộc vào hoàn cảnh cụ thể của bạn.

— agcala

14

Đây là một bài đăng blog xem xét một bài viết tuyên bố SGD là một bộ chuyển đổi tổng quát tốt hơn ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

Thường có một giá trị để sử dụng nhiều hơn một phương thức (một nhóm), bởi vì mọi phương thức đều có một điểm yếu.

— Christopher Klaus
nguồn

4

Bạn cũng nên xem bài đăng này để so sánh các trình tối ưu hóa độ dốc khác nhau. Như bạn có thể thấy bên dưới Adam rõ ràng không phải là trình tối ưu hóa tốt nhất cho một số nhiệm vụ vì nhiều người hội tụ tốt hơn.

— M Sef
nguồn

Chỉ dành cho hồ sơ: Trong bài viết được liên kết, họ đề cập đến một số sai sót của ADAM và trình bày AMSGrad như một giải pháp. Tuy nhiên, họ kết luận rằng liệu AMSGrad có vượt trội hơn ADAM trong thực tiễn hay không (tại thời điểm viết bài) là không kết luận.

— Lus