điểm cực tiểu địa phương vs điểm yên ngựa trong học tập sâu


18

Tôi đã nghe Andrew Ng (trong một video mà tôi không may không thể tìm thấy nữa) nói về cách hiểu về cực tiểu địa phương trong các vấn đề học tập sâu đã thay đổi theo nghĩa là chúng hiện được coi là ít vấn đề hơn vì trong không gian nhiều chiều (gặp phải trong học sâu) các điểm quan trọng có nhiều khả năng là điểm yên ngựa hoặc cao nguyên hơn là cực tiểu địa phương.

Tôi đã thấy các bài báo (ví dụ như bài này ) thảo luận về các giả định theo đó "mọi mức tối thiểu địa phương là mức tối thiểu toàn cầu". Những giả định này đều khá kỹ thuật, nhưng từ những gì tôi hiểu họ có xu hướng áp đặt một cấu trúc lên mạng lưới thần kinh làm cho nó có phần tuyến tính.

Đây có phải là một tuyên bố hợp lệ rằng, trong học tập sâu (bao gồm các kiến ​​trúc phi tuyến), các cao nguyên có nhiều khả năng hơn cực tiểu địa phương? Và nếu vậy, có một trực giác (có thể là toán học) đằng sau nó?

Có điều gì đặc biệt về học tập sâu và điểm yên ngựa?


12
Khi nói đến trực giác toán học về lý do tại sao điểm yên xe có nhiều khả năng hơn mức tối thiểu cục bộ, tôi sẽ nghĩ về nó về các tính năng. Để là một tối thiểu địa phương, nó phải là một tối thiểu địa phương theo mọi hướng. Ngược lại, đối với điểm yên ngựa, chỉ có 1 hướng phải khác so với các hướng khác. Nhiều khả năng 1 hoặc nhiều hơn có những hành vi khác nhau so với những hành vi khác theo mọi hướng.
Paul

3
cảm ơn, bây giờ bạn nói điều đó, thật là hiển nhiên ... đây là một cuộc thảo luận thú vị về chủ đề này
oW_

4
Andrew Ng có một video về "Vấn đề cực tiểu cục bộ" trong tuần 2 của khóa học Coursera của mình, "Cải thiện mạng lưới thần kinh sâu: Điều chỉnh siêu tham số, chính quy hóa và tối ưu hóa". Có lẽ nó là một trong những bạn đang tìm kiếm.
mjul

hãy xem tại đây
Truyền thông

Câu trả lời:


7

Điều này chỉ đơn giản là cố gắng truyền đạt trực giác của tôi, tức là không nghiêm ngặt. Điều với điểm yên ngựa là chúng là một loại tối ưu kết hợp giữa cực tiểu và cực đại. Bởi vì số lượng kích thước rất lớn với việc học sâu, nên xác suất tối ưu chỉ bao gồm sự kết hợp của cực tiểu là rất thấp. Điều này có nghĩa là 'bị kẹt' ở mức tối thiểu cục bộ là rất hiếm. Có nguy cơ quá đơn giản, việc 'mắc kẹt' ở điểm yên xe khó hơn vì bạn có thể 'trượt xuống một trong các kích thước'. Tôi nghĩ rằng video Andrew Ng mà bạn đề cập đến xuất phát từ khóa học Coursera về Deep Learning của anh ấy.


13

Hãy để tôi đưa ra một lời giải thích dựa trên tính toán đa biến. Nếu bạn đã tham gia một khóa học đa biến, bạn sẽ nghe thấy rằng, với một điểm tới hạn (điểm có độ dốc bằng 0), điều kiện để điểm quan trọng này là tối thiểu là ma trận Hessian là xác định dương. Vì Hessian là một ma trận đối xứng, chúng ta có thể cắt chéo nó. Nếu chúng ta viết ma trận đường chéo tương ứng với Hessian là: thì Hessian xác định là dương tương đương với .

D=[d1dn]
d1>0,,dn>0

Bây giờ hãy nghĩ về các chức năng chi phí học tập sâu. Các hàm chi phí học tập sâu phụ thuộc vào rất nhiều tham số theo cách rất phức tạp, do đó, Hessian sẽ có một biểu thức phức tạp. Vì lý do này, chúng tôi có thể nghĩ rằng các giá trị của không thiên về giá trị âm hoặc dương. Vì lý do này, với bất kỳ điểm quan trọng nào, xác suất của mọi giá trị là dương có thể được giả định là . Hơn nữa, thật hợp lý khi giả định rằng các giá trị của không phụ thuộc dễ dàng vào các giá trị của , do tính phi tuyến tính cao của ma trận Hessian, vì vậy chúng tôi sẽ coi xác suất của chúng là dương tính với các sự kiện độc lập.d1,,dndi1/2didj

Vì lý do này, với một điểm quan trọng, xác suất của nó là tối thiểu là:

P(d1>0,,dn>0)=P(d1>0)P(dn>0)=12n

Xác suất của bất kỳ điểm tới hạn nào là tối thiểu giảm theo cấp số nhân với kích thước của không gian đầu vào. Trong học tập sâu, không gian này có thể dao động từ 1000 đến , và trong cả hai trường hợp đều nhỏ một cách lố bịch. Bây giờ chúng tôi tin rằng, với bất kỳ điểm quan trọng nào mà chúng tôi đi qua, rất khó có khả năng đó là mức tối thiểu.1081/2n

Nhưng còn cực đại thì sao?

Cực đại của hàm là cực tiểu của hàm trừ. Vì lý do này, tất cả các đối số được sử dụng trước đây có thể được sử dụng để trừ đi hàm chi phí và chúng tôi kết luận rằng mọi điểm quan trọng đều có xác suất là là tối đa.1/2n

Vì lý do này, với một điểm quan trọng, xác suất của nó là điểm yên ngựa là

P(saddle)=1P(maximum)P(minimum)=112n12n=112n1

Giá trị này rất gần với 1 nếu đủ lớn (thường là học sâu).n

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.