Tại sao entropy chéo trở thành hàm mất tiêu chuẩn phân loại mà không phải là phân kỳ Kullbeck Leibler?


15

Entropy chéo giống hệt với phân kỳ KL cộng với entropy phân phối mục tiêu. KL bằng 0 khi hai phân phối giống nhau, điều này có vẻ trực quan hơn đối với tôi so với entropy của phân phối mục tiêu, đó là những gì entropy chéo trên một trận đấu.

Tôi không nói rằng có nhiều thông tin ở một trong những người khác ngoại trừ quan điểm của con người có thể tìm thấy số 0 trực quan hơn so với tích cực. Tất nhiên, người ta thường sử dụng một phương pháp đánh giá để thực sự thấy phân loại xảy ra tốt như thế nào. Nhưng sự lựa chọn của entropy chéo trên KL lịch sử?

Câu trả lời:


12

Khi nói đến vấn đề phân loại trong học máy, entropy chéo và phân kỳ KL là bằng nhau . Như đã nêu trong câu hỏi, công thức chung là:

H(p,q)=H(p)+DKL(p||q)

Trong đó là một phân phối đúng và là phân phối ước tính, là entropy chéo, H (p) là entropy và D là phân kỳ Kullback - Leibler.pqH(p,q)H(p)D

Lưu ý rằng trong học máy, p là một đại diện nóng của lớp chân lý, nghĩa là,

p=[0,...,1,...,0]

về cơ bản là phân phối hàm delta . Nhưng entropy của hàm delta bằng 0, do đó phân kỳ KL đơn giản bằng entropy chéo.

Trên thực tế, ngay cả khi không phải là (ví dụ: nhãn mềm), nó vẫn cố định và không có đóng góp nào cho gradient. Về mặt tối ưu hóa, thật an toàn khi chỉ cần loại bỏ nó và tối ưu hóa phân kỳ Kullback-Leibler.H(p)0


0

Entropy chéo là một entropy, không phải là một sự khác biệt entropy.

Một cách tự nhiên và có lẽ trực quan hơn để khái niệm hóa các tiêu chí phân loại là thông qua một mối quan hệ chứ không phải là một định nghĩa.

H(P,Q)H(P)=DKL(PQ)=iP(i)logQ(i)P(i)

Điều này tuân theo sự tương đồng, được xác định bởi Claude Shannon với John von Neumann, giữa nhiệt động học cơ học lượng tử và lý thuyết thông tin. Entropy không phải là một số lượng tuyệt đối. Nó là một tương đối, vì vậy không thể tính toán entropy và entropy chéo, nhưng sự khác biệt của chúng có thể là cho trường hợp riêng biệt ở trên hoặc anh chị em liên tục của nó bên dưới.

H(P,Q)H(P)=DKL(PQ)=p(x)logq(x)p(x)dx

Mặc dù chúng ta có thể thấy trong tài liệu, không có H '(...) ở phía bên phải của phương trình, nó không chính xác về mặt kỹ thuật. Trong những trường hợp như vậy, luôn có một số entropy ngụ ý mà entropy ở phía bên tay trái là tương đối.H(...)=...

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.