Lý do mà Trình tối ưu hóa Adam được coi là mạnh mẽ đối với giá trị của các tham số siêu của nó là gì?


24

Tôi đang đọc về trình tối ưu hóa Adam cho Deep Learning và tình cờ thấy câu sau trong cuốn sách mới Deep Learning của Bengio, Goodfellow và Courville:

Adam thường được coi là khá mạnh mẽ đối với việc lựa chọn các tham số siêu, mặc dù tốc độ học tập đôi khi cần phải được thay đổi từ mặc định được đề xuất.

nếu đây là sự thật thì nó là một vấn đề lớn bởi vì tìm kiếm tham số siêu tốc có thể thực sự quan trọng (ít nhất là theo kinh nghiệm của tôi) trong hiệu suất thống kê của một hệ thống học tập sâu. Vì vậy, câu hỏi của tôi là, tại sao Adam Robust với các thông số quan trọng như vậy? Đặc biệt β 2 ?β1β2

Tôi đã đọc bài viết của Adam và nó không cung cấp bất kỳ lời giải thích nào về lý do tại sao nó hoạt động với các tham số đó hoặc tại sao nó mạnh mẽ. Họ có biện minh rằng ở nơi khác?

Ngoài ra, như tôi đọc báo, có vẻ như số lượng các thông số siêu họ đã cố gắng nơi rất nhỏ, cho chỉ có 2 và β 2 chỉ 3. Làm thế nào điều này có thể là một nghiên cứu thực nghiệm kỹ lưỡng nếu nó chỉ hoạt động trên các thông số siêu 2x3 ?β1β2


1
Gửi email cho các tác giả của cuốn sách đã đưa ra yêu cầu. Hỏi họ những gì yêu cầu dựa trên.
Mark L. Stone

1
@ MarkL.Stone anh chỉ nói anh nói điều đó vì bản tóm tắt đã nói điều đó. Hầu như là một lý lẽ thuyết phục. Có lẽ lần tới tôi sẽ gửi e-mail cho các tác giả của bài báo thực tế.
Charlie Parker

7
Và vì vậy tự quảng cáo trở thành sự thật.
Mark L. Stone

@ MarkL.Stone trong sự bảo vệ của anh ấy, anh ấy có thể đã bận rộn để trả lời đúng và tôi chỉ liên lạc với 1 trong 3 tác giả. Có lẽ tôi có thể liên lạc với những người khác nhưng tôi không chắc liệu họ có trả lời được không (ít nhất) một người là giáo sư. Với sự cường điệu trong DL tôi cá rằng anh ta nhận được 300 e-mail mỗi ngày.
Charlie Parker

7
Bây giờ cuốn sách đã ra, các tác giả Adam đã xác nhận thuật toán của họ tuyệt vời như thế nào. Nhắc tôi về trận động đất '89 Bay Area. Đài phát thanh tin tức đã đưa ra báo cáo chưa được xác nhận về số người thiệt mạng về vụ sập đường cao tốc - cho biết họ đang tìm kiếm xác nhận từ văn phòng thống đốc. Sau đó, họ nhận được thống đốc trên điện thoại và hỏi liệu anh ta có thể xác nhận # trường hợp tử vong. Anh nói đó là những gì anh nghe được. Các đài phát thanh sau đó báo cáo rằng họ đã có xác nhận từ thống đốc. Hóa ra là thống đốc có nghĩa là anh ta nghe thấy nó, như hóa ra, trên đài phát thanh đó. Vì vậy, xác nhận thông tư.
Mark L. Stone

Câu trả lời:


7

Liên quan đến các bằng chứng liên quan đến khiếu nại, tôi tin rằng bằng chứng duy nhất hỗ trợ cho yêu cầu này có thể được tìm thấy trên hình 4 trong bài viết của họ . Chúng cho thấy kết quả cuối cùng dưới một loạt các giá trị khác nhau cho , β 2α .β1β2α

β1β2 α


5

β1β2

Điều này trái ngược hoàn toàn với stock vanilla Stochastic Gradient Descent, trong đó:

  • tỷ lệ học tập không phải là trên mỗi tham số, nhưng có một tỷ lệ học tập toàn cầu duy nhất, được áp dụng thẳng thừng, trên tất cả các tham số
    • (nhân tiện, đây là một lý do tại sao dữ liệu thường được làm trắng, chuẩn hóa, trước khi được gửi vào lưới, để cố gắng giữ trọng số cho mỗi tham số lý tưởng tương tự-ish)
  • tỷ lệ học tập được cung cấp là tỷ lệ học tập chính xác được sử dụng và không thích nghi theo thời gian

Adam không phải là người tối ưu hóa duy nhất với tỷ lệ học tập thích ứng. Như bài viết của Adam tuyên bố, nó liên quan rất nhiều đến Adagrad và Rmsprop, vốn cũng cực kỳ không nhạy cảm với siêu âm. Đặc biệt, Rmsprop hoạt động khá độc đáo.

Nhưng Adam là tốt nhất nói chung. Với rất ít ngoại lệ, Adam sẽ làm những gì bạn muốn :)

Có một vài trường hợp khá bệnh lý mà Adam sẽ không làm việc, đặc biệt đối với một số bản phân phối không cố định. Trong những trường hợp này, Rmsprop là một lựa chọn dự phòng tuyệt vời. Nhưng nói chung, đối với hầu hết các trường hợp không bệnh lý, Adam hoạt động rất tốt.


1
β1,β2

Vâng, nếu bạn muốn nói, "có cơ hội nào ở đây để nghiên cứu sâu hơn về lý do tại sao không?", À ... có lẽ.
Hugh Perkins

2
đây không phải là một "câu hỏi sâu hơn". Đây có vẻ là một trong những điểm quan trọng nhất của bài báo, phải không? Toàn bộ vấn đề là nó làm mọi thứ bằng "chính nó" nhưng sau đó có những siêu đường kính khác dường như rất mạnh mẽ. Đó là vấn đề tôi có. Tôi dường như có liên quan đến cốt lõi của bài báo trừ khi tôi hiểu sai quan điểm của Adam.
Charlie Parker

"Có một vài trường hợp bệnh lý khá nghiêm trọng, nơi Adam sẽ không làm việc, đặc biệt đối với một số bản phân phối không cố định." <- có tài liệu tham khảo nào ở đây không?
mimoralea

0

Nhìn vào các công thức ADAM, có vẻ hơi khó hiểu rằng sau một số lần lặp rất lớn (giả sử ~ 400k) độ lớn của, dựa trên lỗi ban đầu, bản thân độ dốc ~ không có vai trò thực sự nào trong bước thực hiện mà dường như mong muốn tham số cấu hình tốc độ học tập trong các dấu hiệu liên quan.
Có lẽ ADAM kiểm soát sự thích ứng trọng lượng tốt hơn so với SGD đơn giản trong các lần lặp / epocs đầu tiên nhưng về phía trước bản cập nhật dường như được giảm xuống một cái gì đó hơi ngây thơ (?) Ai có thể cung cấp một số trực giác về lý do tại sao điều đó thực sự mong muốn và / hoặc có xu hướng hoạt động tốt?


Trên thực tế có vẻ như độ lớn độ dốc dựa trên lỗi không đóng vai trò thực sự ngay cả khi bắt đầu. Câu hỏi là tại sao bình thường hóa như vậy hoạt động tốt, và nó ngụ ý gì về trực giác GD hướng dẫn DL và các mô hình học tập phổ biến khác?
Daniel Rosen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.