Sự khác biệt giữa entropy và phân kỳ KL là gì?


24

Cả hai phân kỳ Cross-entropy và KL là các công cụ để đo khoảng cách giữa hai phân phối xác suất. Sự khác biệt là gì? Hơn nữa, tối thiểu hóa KL tương đương với tối thiểu hóa Entropy chéo.K L ( P | Q ) = x P ( x ) log P ( x )

H(P,Q)=xP(x)logQ(x)
KL(P|Q)=xP(x)logP(x)Q(x)

Tôi muốn biết họ theo bản năng.

Cảm ơn bạn rất nhiều trước.

Câu trả lời:


22

Bạn sẽ cần một số điều kiện để yêu cầu sự tương đương giữa giảm thiểu entropy chéo và giảm thiểu phân kỳ KL. Tôi sẽ đặt câu hỏi của bạn trong bối cảnh các vấn đề phân loại bằng cách sử dụng entropy chéo làm hàm mất.

Trước tiên chúng ta hãy nhớ rằng entropy được sử dụng để đo lường độ không đảm bảo của hệ thống, được định nghĩa là cho là xác suất của các trạng thái khác nhau của hệ thống. Từ quan điểm lý thuyết thông tin, là lượng thông tin cần thiết để loại bỏ sự không chắc chắn.

S(v)=ip(vi)logp(vi),
p(vi)viS(v)

Ví dụ, sự kiện A I will die eventuallygần như chắc chắn (có thể chúng ta có thể giải quyết vấn đề lão hóa cho từ almost), do đó, nó có entropy thấp chỉ yêu cầu thông tin the aging problem cannot be solvedđể làm cho nó chắc chắn. Tuy nhiên, sự kiện B The president will die in 50 yearskhông chắc chắn hơn A, do đó cần nhiều thông tin hơn để loại bỏ những điều không chắc chắn.

Bây giờ hãy xem định nghĩa về phân kỳ KL giữa các sự kiện A và B trong đó thuật ngữ đầu tiên của phía bên phải là entropy của sự kiện A, thuật ngữ thứ hai có thể được hiểu là kỳ vọng của sự kiện B về sự kiện A. Và mô tả mức độ khác nhau của B so với A theo quan điểm của A.

DKL(AB)=ipA(vi)logpA(vi)pA(vi)logpB(vi),
DKL

Để liên kết entropy chéo với entropy và phân kỳ KL, chúng tôi chính thức hóa entropy chéo theo các sự kiện A và B là Từ các định nghĩa, chúng ta có thể dễ dàng thấy Nếu là hằng số, thì tối thiểu hóa tương đương với giảm thiểu .

H(A,B)=ipA(vi)logpB(vi).
H(A,B)=DKL(AB)+SA.
SAH(A,B)DKL(AB)

Một câu hỏi tiếp theo tự nhiên như làm thế nào entropy có thể là một hằng số. Trong một nhiệm vụ học máy, chúng tôi bắt đầu với một tập dữ liệu (ký hiệu là ) đại diện cho vấn đề cần giải quyết và mục đích học tập là làm cho phân phối ước tính mô hình (ký hiệu là ) gần đúng càng tốt để phân phối đúng sự cố (ký hiệu là ). không xác định và được đại diện bởi . Do đó, trong một thế giới lý tưởng, chúng tôi mong đợi và giảm thiểu . Và may mắn thay, trong thực tếP(D)P(model)P(truth)P(truth)P(D)

P(model)P(D)P(truth)
DKL(P(D)P(model))Dđược đưa ra, có nghĩa là entropy nó được cố định là một hằng số.S(D)


Cảm ơn bạn vì câu trả lời. Nó làm sâu sắc thêm sự hiểu biết của tôi. Vì vậy, khi chúng ta có một bộ dữ liệu, sẽ hiệu quả hơn để giảm thiểu giao thoa chéo thay vì KL, phải không? Tuy nhiên, tôi không thể hiểu việc sử dụng chúng đúng cách. Nói cách khác, khi nào tôi nên giảm thiểu KL hoặc entropy chéo?
Jourd

1
Sau khi đọc câu trả lời của bạn, tôi nghĩ không có ích gì để giảm thiểu KL vì chúng tôi luôn có bộ dữ liệu, P (D).
Jourd

Lý tưởng nhất, người ta sẽ chọn phân kỳ KL để đo khoảng cách giữa hai phân phối. Trong bối cảnh phân loại, mất mát entropy chéo thường xuất phát từ khả năng nhật ký âm, ví dụ, khi bạn chọn phân phối Bernoulli để mô hình hóa dữ liệu của mình.
cặp đôi

Bạn có thể muốn xem bài viết tuyệt vời này . Sự đối xứng không phải là vấn đề trong phân loại vì mục tiêu của các mô hình học máy là làm cho phân phối dự đoán càng gần với P (D) cố định, mặc dù các quy tắc thường được thêm vào để tránh quá mức.
nghi ngờ

Tôi hiểu sự bất cân xứng của KL. Tuy nhiên, tôi chưa hiểu cách sử dụng tối thiểu hóa KL hoặc Cross-Entropy khác nhau. Điều đó có nghĩa là khi nào tôi nên giảm thiểu KL và khi nào tôi nên giảm thiểu Cross-Entropy. Tôi nghĩ luôn là một hằng số, phải không? SA
Jourd

6

Tôi cho rằng đó là vì các mô hình thường hoạt động với các mẫu được đóng gói theo lô nhỏ. Đối với phân kỳ KL và Entropy chéo, quan hệ của chúng có thể được viết là Từ phương trình, chúng tôi có thể thấy rằng phân kỳ KL có thể khởi hành thành một Entropy chéo của p và q (phần đầu tiên) và một entropy toàn cầu của sự thật mặt đất p (phần thứ hai).

H(q,p)=DKL(p,q)+H(p)=ipilog(qi)

Trong nhiều dự án học máy, xe buýt nhỏ có liên quan đến đào tạo nhanh, trong đó của xe buýt nhỏ có thể khác với toàn cầu . Trong trường hợp như vậy, Cross-Entropy tương đối mạnh hơn trong thực tế trong khi phân kỳ KL cần một H (p) ổn định hơn để hoàn thành công việc của mình.pp


1
Câu trả lời này là những gì tôi đang tìm kiếm. Theo kinh nghiệm hiện tại của riêng tôi, liên quan đến việc học xác suất mục tiêu, BCE mạnh hơn KL rất nhiều. Về cơ bản, KL không sử dụng được. KL và BCE không có chức năng mất "tương đương".
Nicholas Leonard
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.