Hãy để tôi đưa ra một lời giải thích dựa trên tính toán đa biến. Nếu bạn đã tham gia một khóa học đa biến, bạn sẽ nghe thấy rằng, với một điểm tới hạn (điểm có độ dốc bằng 0), điều kiện để điểm quan trọng này là tối thiểu là ma trận Hessian là xác định dương. Vì Hessian là một ma trận đối xứng, chúng ta có thể cắt chéo nó. Nếu chúng ta viết ma trận đường chéo tương ứng với Hessian là:
thì Hessian xác định là dương tương đương với .
D=⎡⎣⎢⎢d1⋱dn⎤⎦⎥⎥
d1>0,…,dn>0
Bây giờ hãy nghĩ về các chức năng chi phí học tập sâu. Các hàm chi phí học tập sâu phụ thuộc vào rất nhiều tham số theo cách rất phức tạp, do đó, Hessian sẽ có một biểu thức phức tạp. Vì lý do này, chúng tôi có thể nghĩ rằng các giá trị của không thiên về giá trị âm hoặc dương. Vì lý do này, với bất kỳ điểm quan trọng nào, xác suất của mọi giá trị là dương có thể được giả định là . Hơn nữa, thật hợp lý khi giả định rằng các giá trị của không phụ thuộc dễ dàng vào các giá trị của , do tính phi tuyến tính cao của ma trận Hessian, vì vậy chúng tôi sẽ coi xác suất của chúng là dương tính với các sự kiện độc lập.d1,…,dndi1/2didj
Vì lý do này, với một điểm quan trọng, xác suất của nó là tối thiểu là:
P(d1>0,…,dn>0)=P(d1>0)⋅⋯⋅P(dn>0)=12n
Xác suất của bất kỳ điểm tới hạn nào là tối thiểu giảm theo cấp số nhân với kích thước của không gian đầu vào. Trong học tập sâu, không gian này có thể dao động từ 1000 đến , và trong cả hai trường hợp đều nhỏ một cách lố bịch. Bây giờ chúng tôi tin rằng, với bất kỳ điểm quan trọng nào mà chúng tôi đi qua, rất khó có khả năng đó là mức tối thiểu.1081/2n
Nhưng còn cực đại thì sao?
Cực đại của hàm là cực tiểu của hàm trừ. Vì lý do này, tất cả các đối số được sử dụng trước đây có thể được sử dụng để trừ đi hàm chi phí và chúng tôi kết luận rằng mọi điểm quan trọng đều có xác suất là là tối đa.1/2n
Vì lý do này, với một điểm quan trọng, xác suất của nó là điểm yên ngựa là
P(saddle)=1−P(maximum)−P(minimum)=1−12n−12n=1−12n−1
Giá trị này rất gần với 1 nếu đủ lớn (thường là học sâu).n