Là hàm chi phí entropy chéo cho lồi mạng thần kinh?


9

Giáo viên của tôi đã chứng minh rằng đạo hàm thứ hai của entropy chéo luôn luôn dương, do đó hàm chi phí của các mạng thần kinh sử dụng entropy chéo là lồi. Điều này có đúng không? Tôi khá bối rối về điều này bởi vì tôi luôn biết rằng hàm chi phí của ANN là không lồi. bất cứ ai có thể xác nhận điều này? Cảm ơn bạn rất nhiều! http://z0rch.com/2014/06/05/cross-entropy-cost-feft


5
Liên kết bị hỏng?
ebb-Earl-co

Câu trả lời:


7

Entropy chéo của một gia đình hàm mũ luôn luôn lồi. Vì vậy, đối với một mạng nơ ron đa lớp có đầu vào , trọng số w và đầu ra y và hàm mất LxwyL

y2L

là lồi. Tuy nhiên,

w2L

sẽ không bị lồi cho các tham số của lớp giữa vì những lý do được mô tả bởi iamonaboat.


5

Những gì @ngiann đã nói, không chính thức, nếu bạn hoán vị các nơ-ron trong lớp ẩn và thực hiện phép hoán vị tương tự trên các trọng số của các lớp liền kề thì sự mất mát không thay đổi.

Do đó, nếu có một cực tiểu toàn cầu khác không là một hàm của trọng số, thì nó không thể là duy nhất vì hoán vị của các trọng số mang lại một mức tối thiểu toàn cầu khác. Do đó hàm không lồi.

Ma trận của tất cả các đạo hàm riêng thứ hai (Hessian) không phải là semidefinite dương, cũng không phải là semidefinite âm. Vì đạo hàm thứ hai là một ma trận, nên có thể nó không phải là cái này hay cái kia.


Nếu bạn muốn trở thành người phạm tội thay vì không chính thức, định nghĩa thông thường về độ lồi của hàm không yêu cầu mức tối thiểu toàn cầu duy nhất, vì vậy tính không độc đáo của cực tiểu không có nghĩa là không lồi. Tuy nhiên, việc cho phép các trọng số theo cách này cũng không làm thay đổi đầu ra thực tế của mạng của bạn, do đó, ngay cả khi không có độ lồi, bạn vẫn có thể có thuộc tính mà chức năng đào tạo của bạn hội tụ cùng chức năng ~ mỗi lần. Tôi cá là có một cách để phá vỡ tính đối xứng này để sắp xếp các trọng số mà không làm hỏng các tính chất khác của hàm mất.
Andrew Wagner

3

Bạn đã đúng khi nghi ngờ rằng vấn đề tối ưu hóa ANN của vấn đề entropy chéo sẽ không phải là lồi. Lưu ý: chúng ta đang nói về một mạng thần kinh với chức năng kích hoạt phi tuyến tính ở lớp ẩn. Nếu bạn không sử dụng chức năng kích hoạt phi tuyến tính thì ANN của bạn đang triển khai chức năng tuyến tính và vấn đề sẽ trở nên lồi.

Vì vậy, lý do tại sao việc tối ưu hóa entropy chéo của ANN là không lồi là vì tham số cơ bản của ANN. Nếu bạn sử dụng một mạng nơ ron tuyến tính, bạn có thể làm cho nó lồi (về cơ bản nó sẽ trông giống như hồi quy logistic là một vấn đề lồi).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.