Mở rộng câu trả lời của @Dikran Marsupial ....
Anna Choromanska và các đồng nghiệp của cô trong nhóm của Yan LeCunn tại NYU, đã đề cập đến vấn đề này trong bài báo AISTATS 2014 "The Surface Surface of Multipl Nets" . Sử dụng lý thuyết ma trận ngẫu nhiên, cùng với một số thí nghiệm, họ lập luận rằng:
Đối với các mạng kích thước lớn, hầu hết các cực tiểu cục bộ đều tương đương và mang lại hiệu suất tương tự trên một bộ thử nghiệm.
Xác suất tìm thấy mức tối thiểu cục bộ "xấu" (giá trị cao) là khác không đối với các mạng kích thước nhỏ và giảm nhanh chóng với kích thước mạng.
Đấu tranh để tìm mức tối thiểu toàn cầu trên tập huấn luyện (trái ngược với một trong nhiều người địa phương tốt) không hữu ích trong thực tế và có thể dẫn đến thừa.
[Từ trang 2 của bài báo]
Theo quan điểm này, không có lý do tuyệt vời để triển khai các phương pháp tiếp cận nặng nề để tìm mức tối thiểu toàn cầu. Thời gian đó sẽ tốt hơn dành cho việc thử các cấu trúc liên kết mạng mới, tính năng, bộ dữ liệu, v.v.
Điều đó nói rằng, rất nhiều người đã nghĩ về việc tăng cường hoặc thay thế SGD. Đối với các mạng khá nhỏ (theo tiêu chuẩn đương đại), các siêu dữ liệu được cải thiện này dường như làm được điều gì đó Mavrovouniotis và Yang (2016) cho thấy tối ưu hóa đàn kiến + backprop đập backprop không được sửa đổi trên một số bộ dữ liệu điểm chuẩn (mặc dù không nhiều). Rere el al. (2015) sử dụng mô phỏng ủ để huấn luyện CNN và thấy nó ban đầu hoạt động tốt hơn trên bộ xác thực. Tuy nhiên, sau 10 kỷ nguyên, chỉ có một sự khác biệt rất nhỏ (và không được kiểm tra về tầm quan trọng) trong hiệu suất. Lợi thế hội tụ nhanh hơn trên mỗi epoch nhanh hơn cũng được bù đắp bởi thời gian tính toán lớn hơn đáng kể trên mỗi epoch, vì vậy đây không phải là một chiến thắng rõ ràng cho việc ủ mô phỏng.
Có thể các heuristic này làm tốt hơn việc khởi tạo mạng và một khi nó đã được chỉ ra đúng đường, bất kỳ trình tối ưu hóa nào cũng sẽ làm được. Sutskever et al. (2013) từ nhóm của Geoff Hinton tranh luận một cái gì đó như thế này trong bài báo ICML 2013 của họ .