Hãy nghĩ về "cảnh quan tối ưu hóa". Ví dụ: nếu bạn có một mạng chỉ có hai trọng số, bạn có thể vẽ ra tất cả các kết hợp của hai trọng số này trên một bề mặt, trong đó chiều cao ở mỗi điểm biểu thị mức lỗi mà hàm chi phí của bạn trả về nếu bạn sử dụng (x, y ) phối hợp như hai trọng lượng của bạn. Bạn đang cố gắng di chuyển đến điểm thấp nhất trên bề mặt này để nhận mức độ lỗi thấp nhất.
Vấn đề đôi khi là bề mặt có thể trở nên khá điên rồ, đặc biệt là trong các mạng có hàng triệu tham số thay vì chỉ hai. Bạn có thể bị mắc kẹt trong các điểm yên ngựa, nơi tiến độ bị chậm lại, và sau đó đột nhiên bị bắn trở lại vào một ngọn đồi xuống.
Dưới đây là một hình ảnh động để giúp trực quan hóa điều này
Vì bạn có thể thấy các thuật toán giảm độ dốc cơ bản hơn bị mắc kẹt ở các vị trí này dễ dàng hơn nhiều.
Có thể có những nguyên nhân khác cho việc này là tốt, nhưng đây là nguyên nhân bạn nghe thấy phổ biến nhất. Có thể một mạng có thể có một loạt các đơn vị được kích hoạt bão hòa (hoặc trong trường hợp của relu, một đơn vị chỉ được kích hoạt bởi một số lượng rất nhỏ đầu vào đào tạo) và khi một đơn vị thoát khỏi bão hòa đặt ra một phản ứng dây chuyền di chuyển phần còn lại ra khỏi bão hòa và trọng lượng đột nhiên có được tăng cường dòng chảy gradient? Tôi đã không nhìn vào bất cứ điều gì như vậy nhưng tôi sẽ quan tâm nếu có ai có bất kỳ lý do nào khác để thêm vào.