Đăng nhập xác suất tham chiếu đến phân loại softmax

Trong https://cs231n.github.io/neural-networks-case-study/ tại sao nó lại đề cập đến "trình phân loại Softmax diễn giải mọi yếu tố của ff là giữ xác suất nhật ký (không chuẩn hóa) của ba lớp."

Tôi hiểu tại sao nó không được chuẩn hóa nhưng không phải tại sao nó lại đăng nhập? Một xác suất đăng nhập có nghĩa là gì?

Tại sao không chỉ nói xác suất không chuẩn hóa?

— Abhishek Bhatia
nguồn

Có một sự khác biệt giữa xác suất và xác suất đăng nhập. Nếu xác suất của một sự kiện là 0,36787944117, xảy ra là , thì xác suất đăng nhập là -1. $1/e$

Do đó, nếu bạn được cung cấp một loạt các xác suất nhật ký không chuẩn hóa và bạn muốn khôi phục xác suất ban đầu, trước tiên, bạn lấy số mũ của tất cả các số của mình, điều này mang lại cho bạn xác suất không chuẩn hóa. Tiếp theo, bạn bình thường hóa chúng như bình thường. Về mặt toán học, đây là

p_{j} = \frac{e^{z_{j}}}{\sum_{i} e^{z_{i}}}

$p_j = \frac{e^{z_j}}{\sum_i e^{z_i}}$

Trong đó là xác suất của lớp thứ và là đầu vào của phân loại softmax. $p_j$ $j$ $z_i$

Câu hỏi rõ ràng là tại sao phải thực hiện việc thực hiện số mũ. Tại sao không sử dụng

p_{j} = \frac{z_{j}}{\sum_{i} z_{i}}

$p_j = \frac{z_j}{\sum_i z_i}$

thay thế?

Một lý do cho điều này là bởi vì softmax chơi độc đáo với mất entropy chéo, đó là , trong đó là phân phối thực (nhãn). Theo trực giác, nhật ký hủy bỏ với số mũ, rất hữu ích cho chúng tôi. $-E_q[\log p]$ $q$

Nó chỉ ra rằng nếu bạn lấy độ dốc của tổn thất entropy chéo đối với các đầu vào cho bộ phân loại , bạn sẽ nhận được $\vec z$

\vec{p} - 1_{j}

$\vec p - 1_j$

khi nhãn sự thật mặt đất nằm trong lớp và là vectơ một nóng tương ứng. Đây là một biểu hiện rất hay và dẫn đến việc giải thích và tối ưu hóa dễ dàng. $j$ $1_j$

Mặt khác, nếu bạn cố gắng sử dụng xác suất không chuẩn hóa thay vì xác suất nhật ký không chuẩn hóa, bạn sẽ kết thúc với độ dốc

\frac{1}{\sum_{i} z_{i}} - {\vec{1}}_{j}^{T} \frac{1}{z}

$\frac{1}{\sum_i z_i} - \vec 1_j^T\frac{1}{z}$

Biểu thức này kém đẹp hơn nhiều về khả năng diễn giải và bạn cũng có thể thấy các vấn đề số tiềm ẩn khi gần bằng 0. $z$

Một lý do khác để sử dụng xác suất đăng nhập có thể được nhìn thấy từ hồi quy logistic, đó đơn giản là một trường hợp đặc biệt của phân loại softmax. Hình dạng của hàm sigmoid hoạt động tốt bởi vì, theo trực giác, khi bạn di chuyển qua không gian tính năng, xác suất của các lớp không thay đổi tuyến tính với các đầu vào. Sự uốn cong sắc nét trong hàm sigmoid, nhấn mạnh ranh giới sắc nét giữa hai lớp, thực sự là kết quả của thuật ngữ hàm mũ mà chúng ta đang áp dụng cho các đầu vào của softmax.

— shimao
nguồn

Nhật ký trong biểu thức của xác suất nhật ký không chuẩn hóa ở đâu?

— Abhishek Bhatia

Nhật ký xuất phát từ thực tế là . Nhật ký của xác suất là xác suất đăng nhập. Vì trong bài viết của tôi, tôi đã đi theo hướng ngược lại - xác suất đăng nhập thành xác suất, tôi đã sử dụng exp thay vì log.

\log p_{j} \propto z_{j}

$\log p_j \propto z_j$

— shimao