Tôi biết chủ đề này khá cũ và những người khác đã làm rất tốt để giải thích các khái niệm như cực tiểu địa phương, quá mức, v.v. Tuy nhiên, khi OP đang tìm kiếm một giải pháp thay thế, tôi sẽ cố gắng đóng góp một và hy vọng nó sẽ truyền cảm hứng cho những ý tưởng thú vị hơn.
Ý tưởng là thay thế mọi trọng số w thành w + t, trong đó t là một số ngẫu nhiên theo phân phối Gaussian. Đầu ra cuối cùng của mạng sau đó là đầu ra trung bình trên tất cả các giá trị có thể có của t. Điều này có thể được thực hiện phân tích. Sau đó, bạn có thể tối ưu hóa vấn đề bằng cách giảm độ dốc hoặc LMA hoặc các phương pháp tối ưu hóa khác. Sau khi tối ưu hóa xong, bạn có hai lựa chọn. Một tùy chọn là giảm sigma trong phân phối Gaussian và thực hiện tối ưu hóa nhiều lần cho đến khi sigma đạt đến 0, khi đó bạn sẽ có mức tối thiểu cục bộ tốt hơn (nhưng có khả năng nó có thể gây ra quá mức). Một tùy chọn khác là tiếp tục sử dụng một với số ngẫu nhiên trong các trọng số của nó, nó thường có thuộc tính tổng quát hóa tốt hơn.
Cách tiếp cận đầu tiên là một mẹo tối ưu hóa (tôi gọi nó là đường hầm chập, vì nó sử dụng tích chập trên các tham số để thay đổi hàm mục tiêu), nó làm phẳng bề mặt của cảnh quan hàm chi phí và thoát khỏi một số cực tiểu cục bộ, do đó làm cho nó dễ dàng hơn để tìm tối thiểu toàn cầu (hoặc tối thiểu địa phương tốt hơn).
Cách tiếp cận thứ hai liên quan đến việc tiêm tiếng ồn (về trọng lượng). Lưu ý rằng điều này được thực hiện một cách phân tích, có nghĩa là kết quả cuối cùng là một mạng duy nhất, thay vì nhiều mạng.
Dưới đây là các kết quả đầu ra cho bài toán hai hình xoắn ốc. Kiến trúc mạng là giống nhau cho cả ba trong số chúng: chỉ có một lớp ẩn gồm 30 nút và lớp đầu ra là tuyến tính. Thuật toán tối ưu hóa được sử dụng là LMA. Hình ảnh bên trái là cho thiết lập vanilla; ở giữa đang sử dụng cách tiếp cận đầu tiên (cụ thể là liên tục giảm sigma về 0); thứ ba là sử dụng sigma = 2.
Bạn có thể thấy rằng giải pháp vanilla là tồi tệ nhất, đường hầm chập làm việc tốt hơn, và tiếng ồn (với đường hầm chập) là tốt nhất (về đặc tính tổng quát).
Cả đường hầm chập chững và cách phân tích tiếng ồn là những ý tưởng ban đầu của tôi. Có lẽ họ là người thay thế có thể quan tâm. Các chi tiết có thể được tìm thấy trong bài báo của tôi Kết hợp số lượng mạng thần kinh vô cực thành một . Cảnh báo: Tôi không phải là một nhà văn học thuật chuyên nghiệp và bài báo không được xem xét ngang hàng. Nếu bạn có câu hỏi về các phương pháp tôi đã đề cập, xin vui lòng để lại nhận xét.