Tôi đang đọc về trình tối ưu hóa Adam cho Deep Learning và tình cờ thấy câu sau trong cuốn sách mới Deep Learning của Bengio, Goodfellow và Courville:
Adam thường được coi là khá mạnh mẽ đối với việc lựa chọn các tham số siêu, mặc dù tốc độ học tập đôi khi cần phải được thay đổi từ mặc định được đề xuất.
nếu đây là sự thật thì nó là một vấn đề lớn bởi vì tìm kiếm tham số siêu tốc có thể thực sự quan trọng (ít nhất là theo kinh nghiệm của tôi) trong hiệu suất thống kê của một hệ thống học tập sâu. Vì vậy, câu hỏi của tôi là, tại sao Adam Robust với các thông số quan trọng như vậy? Đặc biệt và β 2 ?
Tôi đã đọc bài viết của Adam và nó không cung cấp bất kỳ lời giải thích nào về lý do tại sao nó hoạt động với các tham số đó hoặc tại sao nó mạnh mẽ. Họ có biện minh rằng ở nơi khác?
Ngoài ra, như tôi đọc báo, có vẻ như số lượng các thông số siêu họ đã cố gắng nơi rất nhỏ, cho chỉ có 2 và β 2 chỉ 3. Làm thế nào điều này có thể là một nghiên cứu thực nghiệm kỹ lưỡng nếu nó chỉ hoạt động trên các thông số siêu 2x3 ?