RMSProp và Adam vs SGD

Tôi đang thực hiện các thử nghiệm trên bộ xác thực EMNIST bằng cách sử dụng các mạng với RMSProp, Adam và SGD. Tôi đang đạt được độ chính xác 87% với SGD (tỷ lệ học là 0,1) và bỏ học (thăm dò bỏ học 0,1) cũng như chính quy hóa L2 (phạt 1e-05). Khi kiểm tra cấu hình chính xác tương tự với RMSProp và Adam cũng như tỷ lệ học tập ban đầu là 0,001, tôi đạt được độ chính xác 85% và đường cong đào tạo kém mượt mà hơn đáng kể. Tôi không biết làm thế nào để giải thích hành vi này. Điều gì có thể là lý do đằng sau sự thiếu trơn tru trong đường cong đào tạo và độ chính xác thấp hơn và tỷ lệ lỗi cao hơn đạt được?

— Kiềm
nguồn

Điều này phụ thuộc vào mạng. Bạn có thể chỉ cho chúng tôi chi tiết về mạng? Ngoài ra bạn có thể cung cấp các đường cong học tập?

— Ghi nhớ

Đây là mạng có 5 lớp (Dropout, Affine, ELU trong mỗi lớp), được thiết lập như sau: 150 kích thước ẩn, chức năng kích hoạt ELU được sử dụng, tốc độ học 0,1 cho SGD, tỷ lệ học 0,001 cho RMS và Adam, chuẩn hóa L2 với 1e -05 hình phạt, Bỏ học với xác suất loại trừ 0,1.

— Kiềm

Và khi bạn nói "chính xác cùng một cấu hình ... tỷ lệ học ban đầu là 0,001", bạn có nghĩa là bạn đã sử dụng một tỷ lệ học tập khác nhau hoặc bạn đã thực hiện hai thí nghiệm: một với cùng một tỷ lệ học tập và một với một khác nhau? Nó có thể phụ thuộc vào phần mềm thực tế bạn đang sử dụng như tham số mặc định là gì.

— Wayne

Vì vậy, tôi đã sử dụng 0,1 cho SGD và 0,001 cho cả Adam và RMSProp. Điều này là do khi tôi chạy Adam và RMSProp với tốc độ học tập 0,1, cả hai đều hoạt động kém với độ chính xác 60%. Ngoài ra, 0,001 là giá trị được đề xuất trong bài báo về Adam.

— Kiềm

Bạn nên đăng các đường cong học tập và liệu bạn có đo lường lỗi trong dữ liệu kiểm tra hoặc đào tạo hay không.

— Jakub Bartczuk

Sau khi nghiên cứu một vài bài báo trực tuyến và tài liệu của Keras, đề xuất rằng trình tối ưu hóa RMSProp được khuyến nghị cho các mạng thần kinh tái phát. https://github.com/keras-team/keras/blob/master/keras/optimulators.py#L209

Stochastic Gradient Descent dường như tận dụng tốc độ học tập và động lượng giữa mỗi đợt để tối ưu hóa trọng số của mô hình dựa trên thông tin của hàm mất trong trường hợp của tôi là 'c sortical_crossentropy'.

Tôi đề nghị http://ruder.io/optimizing-gradient-descent/index.html để biết thêm thông tin về các thuật toán tối ưu hóa.

— Alejandro Trujillo
nguồn

Tôi không chắc ý của bạn là "tối ưu hóa RMSProp được khuyến nghị cho các mạng thần kinh tái phát". Liên kết bạn đặt hiện đã bị hỏng và không đề cập đến việc nó được đề xuất.

— Harshal Parekh