Một bài báo gần đây Các bề mặt mất mát của Mạng nhiều lớp cung cấp một số giải thích có thể cho việc này. Từ trừu tượng của họ (đậm là của tôi):
"Chúng tôi phỏng đoán rằng cả mô phỏng ủ và SGD đều hội tụ vào dải điểm quan trọng thấp và tất cả các điểm quan trọng được tìm thấy đều có cực tiểu chất lượng cao được đo bằng lỗi kiểm tra. Điều này nhấn mạnh sự khác biệt lớn giữa mạng cỡ lớn và cỡ nhỏ nơi cho chất lượng kém cực tiểu địa phương thứ hai có khác không khả năng bị thu hồi. cuối cùng, chúng tôi chứng minh rằng thu hồi tối thiểu toàn cầu trở nên khó khăn hơn khi kích thước mạng tăng và đó là trong thực tế không liên quan như tối thiểu toàn cầu thường dẫn đến overfitting ".
Rất nhiều người có ảnh hưởng trong việc học sâu (Yann LeCunn và Yoshua Bengio kể tên một vài người) và một số nhà nghiên cứu đến từ góc độ toán học (Rong Ge và các cộng tác viên khác của Sanjeev Arora) đã thảo luận và khám phá những ý tưởng này.
Trong tài liệu tham khảo ở trên, xem Hình 3, cho thấy hiện tượng dải / nồng độ của các giá trị cực tiểu cục bộ vì các lưới có nhiều đơn vị ẩn hơn. Dải / nồng độ đại diện cho một số bằng chứng thực nghiệm rằng đối với các mô hình sâu hơn hoặc lớn hơn, cực tiểu cục bộ là "đủ tốt", vì các giá trị tổn thất của chúng gần tương tự nhau. Và quan trọng nhất, họ có một mất mát gần với mức tối thiểu toàn cầu khi mô hình trở nên phức tạp hơn (trong trường hợp này rộng hơn, nhưng trên thực tế, sâu hơn).
Hơn nữa, họ sử dụng mô hình kính xoay, mà thậm chí họ chỉ là một mô hình và không nhất thiết chỉ ra hình ảnh thật, để cho thấy rằng việc tiếp cận bộ giảm thiểu toàn cầu từ cực tiểu địa phương có thể mất nhiều thời gian theo cấp số nhân:
"Để tìm được mức tối thiểu thấp hơn nữa, chúng ta phải đi qua một điểm yên ngựa. Vì vậy, chúng ta phải đi lên ít nhất đến mức có một số điểm yên ngựa tương đương để có cơ hội tìm được một con đường có thể đi được chúng tôi đến một địa phương tối thiểu khác. Quá trình này mất nhiều thời gian theo cấp số nhân nên trong thực tế, việc tìm kiếm mức tối thiểu toàn cầu là không khả thi. "
Nghiên cứu Rong Ge tập trung vào việc phá vỡ các điểm yên ngựa. Yoshua Bengio và các cộng tác viên của ông đã đưa ra một giả thuyết Yên tâm khá táo bạo:
Ở đây chúng tôi lập luận, dựa trên kết quả từ vật lý thống kê, lý thuyết ma trận ngẫu nhiên, lý thuyết mạng thần kinh và bằng chứng thực nghiệm, rằng một khó khăn sâu sắc và sâu sắc hơn bắt nguồn từ sự phổ biến của các điểm yên ngựa, không phải là cực tiểu địa phương, đặc biệt là trong các vấn đề quan tâm thực tế . Các điểm yên ngựa như vậy được bao quanh bởi các cao nguyên có lỗi cao có thể làm chậm đáng kể việc học và tạo ấn tượng ảo tưởng về sự tồn tại của mức tối thiểu địa phương.
nguồn ở đây: Xác định và tấn công vấn đề điểm yên trong tối ưu hóa không lồi chiều cao.
Ở một mức độ nào đó, hai cách tiếp cận trên không hoàn toàn giống nhau (Giả thuyết Yên điểm có thể đặt câu hỏi đâu là cực tiểu địa phương và đâu là điểm yên ngựa có điều kiện kém với vùng cao nguyên rất dài?). Ý tưởng đằng sau Giả thuyết Yên điểm là có thể thiết kế các phương pháp tối ưu hóa để vượt qua các điểm yên ngựa, ví dụ: Yên ngựa không có Newton từ bài báo của Bengio, để có khả năng tăng tốc độ hội tụ và thậm chí có thể đạt đến mức tối ưu toàn cầu. Bài viết Bề mặt mất nhiều lớp đầu tiên không thực sự liên quan đến việc đạt đến mức tối ưu toàn cầu và thực sự tin rằng nó có một số thuộc tính quá mức kém. Thật kỳ lạ, cả hai bài viết đều sử dụng ý tưởng từ vật lý thống kê và mô hình kính xoay.
Nhưng chúng có liên quan đến việc cả hai bài báo đều tin rằng để đạt được mức tối thiểu hóa toàn cầu, người ta phải vượt qua thử thách tối ưu hóa các điểm yên ngựa. Bài báo đầu tiên chỉ tin rằng cực tiểu địa phương là đủ tốt.
Thật công bằng khi tự hỏi liệu các phương pháp động lượng và các thuật toán tối ưu hóa mới khác, có thể ước tính một số thuộc tính độ cong bậc 2 có thể thoát khỏi các điểm yên ngựa. Một hoạt hình nổi tiếng của Alec Radford ở đây .
Để trả lời câu hỏi của bạn: "niềm tin này đến từ đâu" Cá nhân tôi nghĩ rằng nó xuất phát từ thực tế là có thể sử dụng các hạt ngẫu nhiên khác nhau để tìm hiểu các trọng lượng khác nhau, nhưng các lưới tương ứng có hiệu suất định lượng tương tự. Ví dụ: nếu bạn đặt hai hạt ngẫu nhiên khác nhau để khởi tạo trọng lượng Glorot, bạn có thể sẽ học được các trọng số khác nhau, nhưng nếu bạn luyện tập bằng các phương pháp tối ưu hóa tương tự, các lưới sẽ có hiệu suất tương tự. Một niềm tin dân gian phổ biến là cảnh quan tối ưu hóa tương tự như một thùng trứng, một bài đăng blog hay khác về điều này ở đây: Không còn cực tiểu địa phương? với sự tương tự thùng trứng.
Chỉnh sửa: Tôi chỉ muốn rõ ràng rằng sự tương tự thùng trứng là không đúng sự thật, nếu không sẽ không cần động lực hoặc các kỹ thuật tối ưu hóa tiên tiến hơn khác. Nhưng người ta biết rằng SGD không hoạt động tốt như SGD + Động lực hoặc các thuật toán tối ưu hóa hiện đại hơn, có lẽ là do sự tồn tại của các điểm yên ngựa.