Trong các mạng lưới thần kinh, tại sao sử dụng các phương pháp gradient hơn là các siêu dữ liệu khác?

20

Trong đào tạo mạng lưới thần kinh sâu và nông, tại sao các phương pháp gradient (ví dụ: độ dốc gốc, Nesterov, Newton-Raphson) thường được sử dụng, trái ngược với các siêu dữ liệu khác?

Theo siêu dữ liệu, ý tôi là các phương pháp như ủ mô phỏng, tối ưu hóa đàn kiến, v.v., được phát triển để tránh bị mắc kẹt trong một cực tiểu địa phương.

— Lior
nguồn

1

FYI Có thể đào tạo một mạng lưới thần kinh mà không cần truyền bá?

— Franck Dernoncourt

13

Mở rộng câu trả lời của @Dikran Marsupial ....

Anna Choromanska và các đồng nghiệp của cô trong nhóm của Yan LeCunn tại NYU, đã đề cập đến vấn đề này trong bài báo AISTATS 2014 "The Surface Surface of Multipl Nets" . Sử dụng lý thuyết ma trận ngẫu nhiên, cùng với một số thí nghiệm, họ lập luận rằng:

Đối với các mạng kích thước lớn, hầu hết các cực tiểu cục bộ đều tương đương và mang lại hiệu suất tương tự trên một bộ thử nghiệm.

Xác suất tìm thấy mức tối thiểu cục bộ "xấu" (giá trị cao) là khác không đối với các mạng kích thước nhỏ và giảm nhanh chóng với kích thước mạng.

Đấu tranh để tìm mức tối thiểu toàn cầu trên tập huấn luyện (trái ngược với một trong nhiều người địa phương tốt) không hữu ích trong thực tế và có thể dẫn đến thừa.

[Từ trang 2 của bài báo]

Theo quan điểm này, không có lý do tuyệt vời để triển khai các phương pháp tiếp cận nặng nề để tìm mức tối thiểu toàn cầu. Thời gian đó sẽ tốt hơn dành cho việc thử các cấu trúc liên kết mạng mới, tính năng, bộ dữ liệu, v.v.

Điều đó nói rằng, rất nhiều người đã nghĩ về việc tăng cường hoặc thay thế SGD. Đối với các mạng khá nhỏ (theo tiêu chuẩn đương đại), các siêu dữ liệu được cải thiện này dường như làm được điều gì đó Mavrovouniotis và Yang (2016) cho thấy tối ưu hóa đàn kiến + backprop đập backprop không được sửa đổi trên một số bộ dữ liệu điểm chuẩn (mặc dù không nhiều). Rere el al. (2015) sử dụng mô phỏng ủ để huấn luyện CNN và thấy nó ban đầu hoạt động tốt hơn trên bộ xác thực. Tuy nhiên, sau 10 kỷ nguyên, chỉ có một sự khác biệt rất nhỏ (và không được kiểm tra về tầm quan trọng) trong hiệu suất. Lợi thế hội tụ nhanh hơn trên mỗi epoch nhanh hơn cũng được bù đắp bởi thời gian tính toán lớn hơn đáng kể trên mỗi epoch, vì vậy đây không phải là một chiến thắng rõ ràng cho việc ủ mô phỏng.

Có thể các heuristic này làm tốt hơn việc khởi tạo mạng và một khi nó đã được chỉ ra đúng đường, bất kỳ trình tối ưu hóa nào cũng sẽ làm được. Sutskever et al. (2013) từ nhóm của Geoff Hinton tranh luận một cái gì đó như thế này trong bài báo ICML 2013 của họ .

— Matt Krause
nguồn

17

Cực tiểu địa phương không thực sự là một vấn đề lớn với mạng lưới thần kinh như thường được đề xuất. Một số cực tiểu cục bộ là do tính đối xứng của mạng (tức là bạn có thể hoán vị các nơ-ron ẩn và rời khỏi chức năngcủa mạng không thay đổi. Tất cả những gì cần thiết là tìm một cực tiểu địa phương tốt, thay vì cực tiểu toàn cầu. Vì nó xảy ra mạnh mẽ tối ưu hóa một mô hình rất linh hoạt, chẳng hạn như mạng thần kinh, có khả năng là một công thức để vượt quá dữ liệu, do đó, sử dụng ví dụ mô phỏng để tìm ra cực tiểu toàn cầu của tiêu chí đào tạo có khả năng khiến mạng lưới thần kinh trở nên tồi tệ hơn hiệu suất tổng quát hóa hơn một được đào tạo bởi độ dốc gốc kết thúc trong một cực tiểu cục bộ. Nếu các phương pháp tối ưu hóa heuristic này được sử dụng, thì tôi sẽ khuyên bạn nên bao gồm một thuật ngữ chính quy để hạn chế sự phức tạp của mô hình.

... Hoặc sử dụng thay thế, ví dụ như một phương thức kernel hoặc mô hình hàm cơ sở xuyên tâm, có khả năng ít gặp rắc rối hơn.

— Sao Hỏa Dikran
nguồn