Cross-Entropy hoặc Log Likabilities trong lớp đầu ra


31

Tôi đọc trang này: http://neuralnetworksanddeeplearning.com/chap3.html

và nó nói rằng lớp đầu ra sigmoid với entropy chéo khá giống với lớp đầu ra softmax với khả năng đăng nhập.

Điều gì xảy ra nếu tôi sử dụng sigmoid với khả năng đăng nhập hoặc softmax với entropy chéo trong lớp đầu ra? có ổn không bởi vì tôi thấy chỉ có một chút khác biệt trong phương trình giữa entropy chéo (eq.57):

C=1nx(ylna+(1y)ln(1a))

và khả năng đăng nhập (eq.80):

C=1nx(lnayL)

Câu trả lời:


51

Khả năng nhật ký âm (eq.80) còn được gọi là entropy chéo đa lớp (ref: Nhận dạng mẫu và Phần học máy 4.3.4), vì thực tế chúng là hai cách hiểu khác nhau của cùng một công thức.

eq.57 là khả năng nhật ký âm của phân phối Bernoulli, trong khi eq.80 là khả năng ghi nhật ký âm của phân phối đa cực với một quan sát (phiên bản đa giác của Bernoulli).

Đối với các vấn đề phân loại nhị phân, hàm softmax đưa ra hai giá trị (từ 0 đến 1 và tổng thành 1) để đưa ra dự đoán của mỗi lớp. Trong khi hàm sigmoid đưa ra một giá trị (từ 0 đến 1) để đưa ra dự đoán của một lớp (vì vậy lớp kia là 1-p).

Vì vậy, eq.80 không thể được áp dụng trực tiếp vào đầu ra sigmoid, mặc dù về cơ bản nó là tổn thất tương tự như eq.57.

Cũng xem câu trả lời này .


Sau đây là một minh họa đơn giản về kết nối giữa (sigmoid + entropy chéo nhị phân) và (entropy chéo đa lớp) cho các vấn đề phân loại nhị phân.

Giả sử chúng ta lấy làm điểm phân chia của hai loại, đối với đầu ra sigmoid, nó theo sau,0.5

σ(wx+b)=0.5
wx+b=0
là ranh giới quyết định trong không gian tính năng.

Đối với đầu ra softmax, nó tuân theo vì vậy nó vẫn giữ nguyên mô hình mặc dù có gấp đôi số tham số.

ew1x+b1ew1x+b1+ew2x+b2=0.5
ew1x+b1=ew2x+b2
w1x+b1=w2x+b2
(w1w2)x+(b1b2)=0

Dưới đây cho thấy ranh giới quyết định thu được bằng cách sử dụng hai phương pháp này, gần như giống hệt nhau.


Những phương trình mà bạn đang đề cập đến? Trong cuốn sách, các phương trình được đánh số khác nhau. Có lẽ nó là một phiên bản cụ thể của cuốn sách? Bạn có thể làm rõ điều này? Tôi đang xem cuốn sách tại users.isr.ist.utl.pt/~wurmd/Livros/school/ Kẻ , trang 209 (phần 4.3.4).
nbro

@nbro ah xin lỗi vì sự nhầm lẫn, ý tôi là các phương trình trong trang được liên kết đưa ra trong câu hỏi.
dontloo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.