Có vẻ như trình tối ưu hóa Ước tính Khoảnh khắc Thích ứng (Adam) hầu như luôn hoạt động tốt hơn (nhanh hơn và đáng tin cậy hơn đến mức tối thiểu toàn cầu) khi giảm thiểu chức năng chi phí trong việc đào tạo mạng lưới thần kinh.
Tại sao không luôn luôn sử dụng Adam? Tại sao thậm chí bận tâm sử dụng RMSProp hoặc tối ưu hóa động lượng?