Khả năng nhật ký âm (eq.80) còn được gọi là entropy chéo đa lớp (ref: Nhận dạng mẫu và Phần học máy 4.3.4), vì thực tế chúng là hai cách hiểu khác nhau của cùng một công thức.
eq.57 là khả năng nhật ký âm của phân phối Bernoulli, trong khi eq.80 là khả năng ghi nhật ký âm của phân phối đa cực với một quan sát (phiên bản đa giác của Bernoulli).
Đối với các vấn đề phân loại nhị phân, hàm softmax đưa ra hai giá trị (từ 0 đến 1 và tổng thành 1) để đưa ra dự đoán của mỗi lớp. Trong khi hàm sigmoid đưa ra một giá trị (từ 0 đến 1) để đưa ra dự đoán của một lớp (vì vậy lớp kia là 1-p).
Vì vậy, eq.80 không thể được áp dụng trực tiếp vào đầu ra sigmoid, mặc dù về cơ bản nó là tổn thất tương tự như eq.57.
Cũng xem câu trả lời này .
Sau đây là một minh họa đơn giản về kết nối giữa (sigmoid + entropy chéo nhị phân) và (entropy chéo đa lớp) cho các vấn đề phân loại nhị phân.
Giả sử chúng ta lấy làm điểm phân chia của hai loại, đối với đầu ra sigmoid, nó theo sau,0.5
σ(wx+b)=0.5
wx+b=0
là ranh giới quyết định trong không gian tính năng.
Đối với đầu ra softmax, nó tuân theo
vì vậy nó vẫn giữ nguyên mô hình mặc dù có gấp đôi số tham số.
ew1x+b1ew1x+b1+ew2x+b2=0.5
ew1x+b1=ew2x+b2
w1x+b1=w2x+b2
(w1−w2)x+(b1−b2)=0
Dưới đây cho thấy ranh giới quyết định thu được bằng cách sử dụng hai phương pháp này, gần như giống hệt nhau.