Tôi đang xử lý một vấn đề liên quan đến việc tìm độ dốc của hàm mất entropy chéo, ghi tham số trong đó:θ
CE(θ)=−∑iyi∗log(y^i)
Trong đó, và là một đầu vào vector.y^i=softmax(θi)θi
Ngoài ra, là một vectơ nóng của lớp đúng và là dự đoán cho mỗi lớp sử dụng hàm softmax.yyy^
Do đó, ví dụ: hãy để
vày i = ( 0,10 0,20 0,10 0,40 0,20 )yi=⎛⎝⎜⎜⎜⎜⎜⎜00010⎞⎠⎟⎟⎟⎟⎟⎟y^i=⎛⎝⎜⎜⎜⎜⎜⎜0.100.200.100.400.20⎞⎠⎟⎟⎟⎟⎟⎟
Để tìm đạo hàm riêng∂CE(θ)∂θik=−yik−y^ik
Lấy từ đó cho mỗi , độ dốc từng phần riêng lẻ sẽ là
i∂CE(θ)∂θi=⎛⎝⎜⎜⎜⎜⎜⎜yi1−y^i1yi2−y^i2yi3−y^i3yi4−y^i4yi5−y^i5⎞⎠⎟⎟⎟⎟⎟⎟
Nhưng điều này không đúng vì độ dốc thực sự phải là 0 cho tất cả các hàng khác ngoại trừ hàng thứ 4 vì chúng ta đã sử dụng thuộc tính của một vectơ nóng. Vì vậy, độ dốc thực tế phải là
∂CE(θ)∂θi=⎛⎝⎜⎜⎜⎜⎜⎜000yi4−y^i40⎞⎠⎟⎟⎟⎟⎟⎟
Và do đó, độ dốc cho tất cả phải là
∂ C E ( θ )i∂CE( θ )∂θ= ⎛⎝⎜⎜⎜⎜00. . .000ytôi 2- y^tôi 20ytôi 3- y^tôi 30ytôi 4- y^tôi 400000⎞⎠⎟⎟⎟⎟
Nhưng điều này không bằng . Vì vậy, chúng ta không nên gọi độ dốc của hàm entropy chéo là sự khác biệt vectơ giữa dự đoán và bản gốc.y^- y
Ai đó có thể làm rõ về điều này?
CẬP NHẬT: Đã sửa lỗi phái sinh của tôi
θ = ⎛⎝⎜⎜⎜⎜⎜⎜θ1θ2θ3θ4θ5⎞⎠⎟⎟⎟⎟⎟⎟
CE( Θ ) = - ΣTôiyTôi* L o g( y^Tôi)
Trong đó, và là một đầu vào vector.θiy^Tôi= s o ft m a x ( θTôi)θTôi
Ngoài ra, là một vectơ nóng của lớp đúng và là dự đoán cho mỗi lớp sử dụng hàm softmax.yyy^
∂CE( θ )∂θ tôi= - ( l o g( y^k) )
CẬP NHẬT: Đã xóa chỉ mục khỏi vàyyy^
Do đó, ví dụ: hãy để
vày = ( 0,10 0,20 0,10 0,40 0,20 )y= ⎛⎝⎜⎜⎜⎜⎜⎜00010⎞⎠⎟⎟⎟⎟⎟⎟y^= ⎛⎝⎜⎜⎜⎜⎜⎜0,100,200,100,400,20⎞⎠⎟⎟⎟⎟⎟⎟
CẬP NHẬT: Đã sửa lỗi Tôi đang dùng wrt phái sinh nó chỉ nên là wrt . θ iθtôi kθTôi
Để tìm đạo hàm riêng∂CE( θ )∂θ tôi= - yk- y^k
Lấy từ đó cho mỗi , độ dốc từng phần riêng lẻ sẽ là
∂ C E ( θ )Tôi∂CE( θ )∂θ= ⎛⎝⎜⎜⎜⎜⎜⎜y1- y^1y2- y^2y3- y^3y4- y^4y5- y^5⎞⎠⎟⎟⎟⎟⎟⎟
Điều trên xảy ra vì
Và,
Lấy đạo hàm riêng của wrt chúng tôi nhận được:CE( θ ) = - ( yk* L o g( y^k) )CE(y^k= l o g( s o ft m a x ( θk) ) = θk- l o g( ∑je x p ( θj) )θ iCE( θ )θTôi
∂CE( θ )∂θ tôi= - ( ∂θk∂θ tôi- s o ft m a x ( θTôi) )
BƯỚC CHÍNH:
Thực tế là và làm cho vectơ hoàn thành bằng chứng.∂ q k∂θk∂θ tôi= 0 , i ≠ k∂CE(θ)∂θk∂θtôi= 1 , tôi = k∂CE( θ)∂θ= =y^- y