Hai thuật toán đầu tiên mà bạn đề cập (Nelder-Mead và mô phỏng luyện kim) thường được coi là khá lỗi thời trong giới tối ưu hóa, vì có nhiều lựa chọn thay thế tốt hơn, đáng tin cậy hơn và ít tốn kém hơn. Các thuật toán di truyền bao gồm một phạm vi rộng, và một số trong số này có thể hợp lý.
Tuy nhiên, trong lớp thuật toán tối ưu hóa không dẫn xuất (DFO) rộng hơn, có nhiều thuật toán tốt hơn đáng kể so với các "kinh điển" này, vì đây là một lĩnh vực nghiên cứu tích cực trong những thập kỷ gần đây. Vì vậy, một số trong những cách tiếp cận mới hơn này có hợp lý cho việc học sâu không?
Một bài báo tương đối gần đây so sánh tình trạng của nghệ thuật là như sau:
Rios, LM, & Sahinidis, NV (2013) Tối ưu hóa không có đạo hàm: đánh giá các thuật toán và so sánh việc triển khai phần mềm. Tạp chí Tối ưu hóa toàn cầu.
Đây là một bài báo hay có nhiều hiểu biết thú vị về các kỹ thuật gần đây. Ví dụ, kết quả cho thấy rõ ràng rằng các trình tối ưu hóa cục bộ tốt nhất đều là "dựa trên mô hình", sử dụng các hình thức lập trình bậc hai tuần tự (SQP) khác nhau.
Tuy nhiên, như đã lưu ý trong bản tóm tắt của họ "Chúng tôi thấy rằng khả năng của tất cả những người giải quyết này có được các giải pháp tốt sẽ giảm đi khi tăng quy mô vấn đề." Để đưa ra ý tưởng về các con số, đối với tất cả các vấn đề, người giải đã đưa ra ngân sách 2500 đánh giá hàm và kích thước bài toán tối đa là ~ 300 tham số để tối ưu hóa. Ngoài các tham số O [10], rất ít trong số các trình tối ưu hóa này hoạt động rất tốt và ngay cả những thông số tốt nhất cũng cho thấy sự suy giảm đáng chú ý về hiệu suất khi kích thước sự cố được tăng lên.
Vì vậy, đối với các vấn đề rất cao, thuật toán DFO không thể cạnh tranh với các thuật toán dựa trên đạo hàm. Để đưa ra một số viễn cảnh, tối ưu hóa dựa trên cơ sở PDE (phương trình vi phân từng phần) là một lĩnh vực khác có các vấn đề rất cao (ví dụ: một số tham số cho mỗi ô của lưới phần tử hữu hạn 3D lớn). Trong lĩnh vực này, " phương thức kết hợp " là một trong những phương thức được sử dụng nhiều nhất. Đây cũng là một trình tối ưu hóa giảm dần dựa trên sự khác biệt tự động của mã mô hình chuyển tiếp.
Gần nhất với trình tối ưu hóa DFO chiều cao có lẽ là Bộ lọc Bộ đồng bộ Kalman , được sử dụng để đồng hóa dữ liệu thành các mô phỏng PDE phức tạp, ví dụ như mô hình thời tiết. Thật thú vị, đây thực chất là một cách tiếp cận SQP, nhưng với cách giải thích Bayes-Gaussian (vì vậy mô hình bậc hai là xác định dương, tức là không có điểm yên ngựa). Nhưng tôi không nghĩ rằng số lượng tham số hoặc quan sát trong các ứng dụng này tương đương với những gì được thấy trong học tập sâu.
Lưu ý bên lề (cực tiểu địa phương): Từ nhỏ tôi đã đọc về học sâu, tôi nghĩ rằng sự đồng thuận là điểm yên ngựa chứ không phải là cực tiểu cục bộ, vấn đề lớn nhất đối với không gian tham số NN chiều cao.
Ví dụ, đánh giá gần đây trong Tự nhiên cho biết "Các kết quả lý thuyết và thực nghiệm gần đây cho thấy mạnh mẽ rằng cực tiểu địa phương nói chung không phải là vấn đề nghiêm trọng. Thay vào đó, cảnh quan được đóng gói với số lượng lớn các điểm yên ngựa kết hợp trong đó độ dốc bằng 0 và bề mặt cong lên trong hầu hết các kích thước và cong xuống trong phần còn lại. "
Một mối quan tâm liên quan là về tối ưu hóa cục bộ và toàn cầu (ví dụ câu hỏi này được chỉ ra trong các ý kiến). Mặc dù tôi không học sâu, nhưng theo kinh nghiệm của tôi, việc vượt quá chắc chắn là một mối quan tâm hợp lệ. Theo tôi, các phương pháp tối ưu hóa toàn cầu phù hợp nhất cho các vấn đề thiết kế kỹ thuật không phụ thuộc nhiều vào dữ liệu "tự nhiên". Trong vấn đề dữ liệu đồng hóa, bất kỳ cực tiểu toàn cầu hiện nay có thể dễ dàng thay đổi khi bổ sung dữ liệu mới (caveat: Kinh nghiệm của tôi là tập trung vào các vấn đề khoa học địa chất, nơi dữ liệu nói chung là "thưa thớt" so với khả năng mô hình).
Một viễn cảnh thú vị có lẽ là
O. Bousquet & L. Bottou (2008) Sự đánh đổi của việc học tập quy mô lớn. NIPS.
trong đó cung cấp các lập luận bán lý thuyết về lý do tại sao và khi nào tối ưu hóa gần đúng có thể thích hợp hơn trong thực tế.
Lưu ý cuối (tối ưu hóa meta): Mặc dù các kỹ thuật dựa trên độ dốc dường như chiếm ưu thế đối với các mạng đào tạo, có thể có một vai trò cho DFO trong các nhiệm vụ tối ưu hóa meta liên quan.
Một ví dụ sẽ là điều chỉnh siêu tham số. (Thật thú vị, các trình tối ưu hóa DFO dựa trên mô hình thành công từ Rios & Sahinidis có thể được xem như là giải quyết cơ bản một chuỗi các vấn đề thiết kế thí nghiệm / phản ứng bề mặt .)
Một ví dụ khác có thể là thiết kế kiến trúc, về mặt thiết lập các lớp (ví dụ: số, loại, trình tự, nút / lớp). Trong bối cảnh tối ưu hóa rời rạc này, các thuật toán kiểu di truyền có thể phù hợp hơn. Lưu ý rằng ở đây tôi đang nghĩ đến trường hợp kết nối được xác định ngầm bởi các yếu tố này (ví dụ: các lớp được kết nối đầy đủ, các lớp chập, v.v.). Nói cách khác, kết nối là meta được tối ưu hóa một cách rõ ràng. (Sức mạnh kết nối sẽ thuộc đào tạo, nơi ví dụ như thưa thớt có thể được thúc đẩy bởi quy tắc và / hoặc kích hoạt ReLU ... những lựa chọn có thể là meta-tối ưu hóa tuy nhiên.)O[N2]notL1