Đăng nhập xác suất tham chiếu đến phân loại softmax


9

Trong https://cs231n.github.io/neural-networks-case-study/ tại sao nó lại đề cập đến "trình phân loại Softmax diễn giải mọi yếu tố của ff là giữ xác suất nhật ký (không chuẩn hóa) của ba lớp."

Tôi hiểu tại sao nó không được chuẩn hóa nhưng không phải tại sao nó lại đăng nhập? Một xác suất đăng nhập có nghĩa là gì?

Tại sao không chỉ nói xác suất không chuẩn hóa?

Câu trả lời:


9

Có một sự khác biệt giữa xác suất và xác suất đăng nhập. Nếu xác suất của một sự kiện là 0,36787944117, xảy ra là , thì xác suất đăng nhập là -1.1/e

Do đó, nếu bạn được cung cấp một loạt các xác suất nhật ký không chuẩn hóa và bạn muốn khôi phục xác suất ban đầu, trước tiên, bạn lấy số mũ của tất cả các số của mình, điều này mang lại cho bạn xác suất không chuẩn hóa. Tiếp theo, bạn bình thường hóa chúng như bình thường. Về mặt toán học, đây là

pj=ezjiezi

Trong đó là xác suất của lớp thứ và là đầu vào của phân loại softmax. j z ipjjzi

Câu hỏi rõ ràng là tại sao phải thực hiện việc thực hiện số mũ. Tại sao không sử dụng

pj=zjizi

thay thế?

Một lý do cho điều này là bởi vì softmax chơi độc đáo với mất entropy chéo, đó là , trong đó là phân phối thực (nhãn). Theo trực giác, nhật ký hủy bỏ với số mũ, rất hữu ích cho chúng tôi.qEq[logp]q

Nó chỉ ra rằng nếu bạn lấy độ dốc của tổn thất entropy chéo đối với các đầu vào cho bộ phân loại , bạn sẽ nhận được p -1jz

p1j

khi nhãn sự thật mặt đất nằm trong lớp và là vectơ một nóng tương ứng. Đây là một biểu hiện rất hay và dẫn đến việc giải thích và tối ưu hóa dễ dàng.1 jj1j

Mặt khác, nếu bạn cố gắng sử dụng xác suất không chuẩn hóa thay vì xác suất nhật ký không chuẩn hóa, bạn sẽ kết thúc với độ dốc

1izi1jT1z

Biểu thức này kém đẹp hơn nhiều về khả năng diễn giải và bạn cũng có thể thấy các vấn đề số tiềm ẩn khi gần bằng 0.z

Một lý do khác để sử dụng xác suất đăng nhập có thể được nhìn thấy từ hồi quy logistic, đó đơn giản là một trường hợp đặc biệt của phân loại softmax. Hình dạng của hàm sigmoid hoạt động tốt bởi vì, theo trực giác, khi bạn di chuyển qua không gian tính năng, xác suất của các lớp không thay đổi tuyến tính với các đầu vào. Sự uốn cong sắc nét trong hàm sigmoid, nhấn mạnh ranh giới sắc nét giữa hai lớp, thực sự là kết quả của thuật ngữ hàm mũ mà chúng ta đang áp dụng cho các đầu vào của softmax.


Nhật ký trong biểu thức của xác suất nhật ký không chuẩn hóa ở đâu?
Abhishek Bhatia

1
Nhật ký xuất phát từ thực tế là . Nhật ký của xác suất là xác suất đăng nhập. Vì trong bài viết của tôi, tôi đã đi theo hướng ngược lại - xác suất đăng nhập thành xác suất, tôi đã sử dụng exp thay vì log. logpjzj
shimao
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.