Có phải đó là vấn đề mà (trong ) có thể là 0 không?yilog(yi)
Đúng vậy, vì không được xác định, nhưng vấn đề này được tránh sử dụng trong thực tế.log(0)log(yi+ϵ)
Cái gì đúng?
(a) hoặc
(b) ?Hy′(y):=−∑iy′ilog(yi)
Hy′(y):=−∑i(y′ilog(yi)+(1−y′i)log(1−yi))
(a) là chính xác cho dự đoán nhiều lớp (nó thực sự là một tổng kết kép), (b) giống như (a) cho dự đoán hai lớp. Cả hai đều là entropy chéo.
Thí dụ:
Giả sử mỗi dữ liệu đào tạo có nhãn và mô hình dự đoán .xic′i∈{0,1}ci∈[0,1]
Đối với 5 điểm dữ liệu, nhãn thực và dự đoán mô hình là: c′ici
(c′i,ci)={(0,0.1),(0,0.4),(0,0.8),(1,0.8),(1,0.2)} (1),
Xác định các vectơ và là y′iyi
y′ik:=1c ′ i = k : = 0 nếu và nếu không, c′i=k:=0
yik:=p(k|xi)x i k là xác suất của thuộc lớpxik , được ước tính theo mô hình.
(y′i,yi)
(y′i,yi)={([1,0],[0.9,0.1]), ([1,0],[0.6,0.4]), ([1,0],[0.2,0.8]), ([0,1],[0.2,0.8]), ([0,1],[0.8,0.2])}
Cả (a) và (b) được tính như sau:
Hy′(y)=−1/5([log(0.9)+log(0.6)+log(0.2)]ci=0+[log(0.8)+log(0.2)]ci=1)=0.352
Đạo hàm:
1K
(xi,c′i)c′i=ky′i=[0,..,1,0,..]kthy′ik=1yik=p(k|xi)(xi,k)−log(yik)yik→1⇒−log(yik)→0
L(y′i,yi)=−∑Kk=1y′iklog(yik)
y′ik=1k′≠k0log(yik′)=0y′im=1
L(y′i,yi)=−log(yim)
Công thức cuối cùng trên tất cả các điểm đào tạo là:
Hy′(y)=−∑(xi,y′i)∑Kk=1y′iklog(yik)
y′i0=1−y′i1yi0=1−yi1
Hy′(y)=−∑(xi,y′i)y′i1log(yi1)+y′i0log(yi0)=−∑(xi,y′i)y′i1log(yi1)+(1−y′i1)log(1−yi1)
giống như (b).
Liên kết chéo (a) trên các lớp (một tổng)
Entropy chéo (a) trên các lớp là:
Hy′(y)=−∑Kk=1y′klog(yk)
Phiên bản này không thể được sử dụng cho nhiệm vụ phân loại. Cho phép sử dụng lại dữ liệu từ ví dụ trước:
(c′i,ci)={(0,0.1),(0,0.4),(0,0.8),(1,0.8),(1,0.2)}
y′0=3/5=0.6y′1=0.4
y0=3/5=0.6y1=0.4
−y′0logy0−y′1logy1=−0.6log(0.6)−0.4log(0.4)=0.292
(0,0.8)(1,0.2)y′0y′1
(c′i,ci)={(0,0.1),(0,0.4),(0,0.2),(1,0.8),(1,0.8)}
y′0y0=3/5