Điều gì gây ra sự sụt giảm đột ngột trong các lỗi đào tạo / kiểm tra khi đào tạo một mạng lưới thần kinh?


18

Tôi đã thấy các âm mưu của lỗi kiểm tra / huấn luyện đột nhiên giảm xuống ở một số kỷ nguyên nhất định một vài lần trong quá trình đào tạo mạng lưới thần kinh và tôi tự hỏi điều gì gây ra những bước nhảy hiệu suất này:

Lỗi kiểm tra ResNet

Hình ảnh này được lấy từ Kaiming He Github, nhưng những mảnh đất tương tự xuất hiện trong nhiều bài báo.


Một bài báo liên quan: Smith et al. 2018 Đừng phân rã tỷ lệ học tập, tăng kích thước hàng loạt, openreview.net/forum?id=B1Yy1BxCZ
amoeba nói Phục hồi lại

Câu trả lời:


7

Họ đã thay đổi tỷ lệ học tập. Lưu ý mức giảm là chính xác 30 và 60 epoch, rõ ràng được đặt thủ công bởi ai đó.


Trong phần 3,4, nó giải thích rằng tỷ lệ học tập được chia cho 10 khi các cao nguyên lỗi
xiawi

2

Hãy nghĩ về "cảnh quan tối ưu hóa". Ví dụ: nếu bạn có một mạng chỉ có hai trọng số, bạn có thể vẽ ra tất cả các kết hợp của hai trọng số này trên một bề mặt, trong đó chiều cao ở mỗi điểm biểu thị mức lỗi mà hàm chi phí của bạn trả về nếu bạn sử dụng (x, y ) phối hợp như hai trọng lượng của bạn. Bạn đang cố gắng di chuyển đến điểm thấp nhất trên bề mặt này để nhận mức độ lỗi thấp nhất.
Vấn đề đôi khi là bề mặt có thể trở nên khá điên rồ, đặc biệt là trong các mạng có hàng triệu tham số thay vì chỉ hai. Bạn có thể bị mắc kẹt trong các điểm yên ngựa, nơi tiến độ bị chậm lại, và sau đó đột nhiên bị bắn trở lại vào một ngọn đồi xuống.
Dưới đây là một hình ảnh động để giúp trực quan hóa điều này Vì bạn có thể thấy các thuật toán giảm độ dốc cơ bản hơn bị mắc kẹt ở các vị trí này dễ dàng hơn nhiều.
nhập mô tả hình ảnh ở đây

Có thể có những nguyên nhân khác cho việc này là tốt, nhưng đây là nguyên nhân bạn nghe thấy phổ biến nhất. Có thể một mạng có thể có một loạt các đơn vị được kích hoạt bão hòa (hoặc trong trường hợp của relu, một đơn vị chỉ được kích hoạt bởi một số lượng rất nhỏ đầu vào đào tạo) và khi một đơn vị thoát khỏi bão hòa đặt ra một phản ứng dây chuyền di chuyển phần còn lại ra khỏi bão hòa và trọng lượng đột nhiên có được tăng cường dòng chảy gradient? Tôi đã không nhìn vào bất cứ điều gì như vậy nhưng tôi sẽ quan tâm nếu có ai có bất kỳ lý do nào khác để thêm vào.


1
-1. Điều này không trả lời câu hỏi, hoặc ít nhất là nó không rõ ràng như thế nào, và tại sao những gì bạn viết có liên quan. Tại sao giảm tỷ lệ học tập có được một trong những điểm yên ngựa?
amip nói rằng Phục hồi Monica

Thậm chí không rõ ràng rằng hoạt hình là chính xác, vì SGD - theo định nghĩa - nhìn thấy một bề mặt tối ưu hóa khác nhau với mỗi lần lặp. Trong đồ họa này, bề mặt tối ưu hóa được cố định, vì vậy tôi không rõ làm thế nào có thể minh họa SGD ở đây. "Chấm" SGD hoạt động giống như giảm dần độ dốc toàn bộ, trong đó bề mặt tối ưu hóa được cố định trong toàn bộ quá trình đào tạo.
Josh
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.