Có một sự khác biệt giữa xác suất và xác suất đăng nhập. Nếu xác suất của một sự kiện là 0,36787944117, xảy ra là , thì xác suất đăng nhập là -1.1 / e
Do đó, nếu bạn được cung cấp một loạt các xác suất nhật ký không chuẩn hóa và bạn muốn khôi phục xác suất ban đầu, trước tiên, bạn lấy số mũ của tất cả các số của mình, điều này mang lại cho bạn xác suất không chuẩn hóa. Tiếp theo, bạn bình thường hóa chúng như bình thường. Về mặt toán học, đây là
pj= ezjΣTôiezTôi
Trong đó là xác suất của lớp thứ và là đầu vào của phân loại softmax. j z ipjjzTôi
Câu hỏi rõ ràng là tại sao phải thực hiện việc thực hiện số mũ. Tại sao không sử dụng
pj= zjΣTôizTôi
thay thế?
Một lý do cho điều này là bởi vì softmax chơi độc đáo với mất entropy chéo, đó là , trong đó là phân phối thực (nhãn). Theo trực giác, nhật ký hủy bỏ với số mũ, rất hữu ích cho chúng tôi.q- Eq[ nhật kýp ]q
Nó chỉ ra rằng nếu bạn lấy độ dốc của tổn thất entropy chéo đối với các đầu vào cho bộ phân loại , bạn sẽ nhận được
→ p -1jz⃗
p⃗ - 1j
khi nhãn sự thật mặt đất nằm trong lớp và là vectơ một nóng tương ứng. Đây là một biểu hiện rất hay và dẫn đến việc giải thích và tối ưu hóa dễ dàng.1 jj1j
Mặt khác, nếu bạn cố gắng sử dụng xác suất không chuẩn hóa thay vì xác suất nhật ký không chuẩn hóa, bạn sẽ kết thúc với độ dốc
1ΣTôizTôi- 1⃗ Tj1z
Biểu thức này kém đẹp hơn nhiều về khả năng diễn giải và bạn cũng có thể thấy các vấn đề số tiềm ẩn khi gần bằng 0.z
Một lý do khác để sử dụng xác suất đăng nhập có thể được nhìn thấy từ hồi quy logistic, đó đơn giản là một trường hợp đặc biệt của phân loại softmax. Hình dạng của hàm sigmoid hoạt động tốt bởi vì, theo trực giác, khi bạn di chuyển qua không gian tính năng, xác suất của các lớp không thay đổi tuyến tính với các đầu vào. Sự uốn cong sắc nét trong hàm sigmoid, nhấn mạnh ranh giới sắc nét giữa hai lớp, thực sự là kết quả của thuật ngữ hàm mũ mà chúng ta đang áp dụng cho các đầu vào của softmax.