Phân tích phân kỳ Kullback-Leibler


18

Chúng ta hãy xem xét hai phân phối xác suất sau đây

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

Tôi đã tính toán phân kỳ Kullback-Leibler bằng , tôi muốn biết nói chung con số này cho tôi thấy điều gì? Nói chung, phân kỳ Kullback-Leibler cho tôi thấy một phân phối xác suất từ ​​một phân phối khác, phải không? Nó tương tự như thuật ngữ entropy, nhưng về mặt số lượng, nó có nghĩa là gì? Nếu tôi có kết quả là 0,49, tôi có thể nói rằng khoảng một phân phối khác xa 50% không?0.492820258


Xem các cuộc thảo luận ở đây có thể là một số trợ giúp.
Glen_b -Reinstate Monica

Bạn đã đọc bài viết trên wikipedia?
Neil G

Câu trả lời:


42

Phân kỳ Kullback-Leibler không phải là một số liệu đúng, vì nó không đối xứng và cũng không thỏa mãn bất đẳng thức tam giác. Vì vậy, "vai trò" của hai bản phân phối là khác nhau và điều quan trọng là phân phối các vai trò này theo hiện tượng trong thế giới thực đang nghiên cứu.

Khi chúng ta viết (OP đã tính biểu thức bằng logarit cơ số 2)

K(P||Q)=ilog2(pi/qi)pi

chúng tôi coi phân phối là "phân phối mục tiêu" (thường được coi là phân phối thực sự), mà chúng tôi ước tính bằng cách sử dụng phân phốiQPQ

Hiện nay,

ilog2(pi/qi)pi=ilog2(pi)piilog2(qi)pi=H(P)EP(ln(Q))

Trong đó là entropy Shannon của phân phối và được gọi là "entropy chéo của và " - cũng không đối xứng.P - E P ( ln ( Q ) ) P QH(P)PEP(ln(Q))PQ

Viết

K(P||Q)=H(P,Q)H(P)

(ở đây cũng vậy, thứ tự mà chúng ta viết các bản phân phối trong sự biểu hiện của các vấn đề cross-entropy, vì nó quá là không đối xứng), cho phép chúng ta thấy rằng KL-phân kỳ phản ánh sự gia tăng entropy trong entropy không thể tránh khỏi của phân phối .P

Vì vậy, không , phân kỳ KL tốt hơn không nên được hiểu là "thước đo khoảng cách" giữa các phân phối, mà là thước đo tăng entropy do sử dụng xấp xỉ với phân phối thực chứ không phải là phân phối thực .

Vì vậy, chúng tôi đang ở trong lý thuyết thông tin đất. Để nghe nó từ các bậc thầy (Cover & Thomas) "

... Nếu chúng ta biết phân phối của biến ngẫu nhiên, chúng ta có thể xây dựng mã với độ dài mô tả trung bình . Thay vào đó, nếu chúng ta sử dụng mã cho phân phối , chúng ta sẽ cần các bit để mô tả biến ngẫu nhiên.H ( P ) Q H ( P ) + K ( P | | Q )PH(P)QH(P)+K(P||Q)

Những người khôn ngoan cũng nói như vậy.

... nó không phải là một khoảng cách thực sự giữa các phân phối vì nó không đối xứng và không thỏa mãn bất đẳng thức tam giác. Tuy nhiên, thường rất hữu ích khi nghĩ về entropy tương đối như một khoảng cách khác giữa các bản phân phối.

Nhưng phương pháp thứ hai này hữu ích chủ yếu khi người ta cố gắng giảm thiểu phân kỳ KL để tối ưu hóa một số thủ tục ước tính. Đối với việc giải thích các giá trị số của nó cho mỗi gia nhập , nó không phải là hữu ích, và ta nên thích "tăng entropy" cách tiếp cận.

Đối với các bản phân phối cụ thể của câu hỏi (luôn sử dụng logarit cơ số 2)

K(P||Q)=0.49282,H(P)=1.9486

Nói cách khác, bạn cần 25% nhiều bit để mô tả tình trạng này nếu bạn đang sử dụng trong khi phân phối thực sự là . Điều này có nghĩa là các dòng mã dài hơn, nhiều thời gian hơn để viết chúng, nhiều bộ nhớ hơn, nhiều thời gian hơn để đọc chúng, xác suất mắc lỗi cao hơn v.v ... không phải ngẫu nhiên mà Cover & Thomas nói rằng KL-Divergence (hay "entropy tương đối") " đo lường sự kém hiệu quả gây ra bởi sự gần đúng. "PQP


Vô cùng hữu ích và thông tin trả lời.
MadHatter

1

Phân kỳ KL đo lường sự mất thông tin cần thiết để biểu thị một ký hiệu từ P bằng các ký hiệu từ Q. Nếu bạn có giá trị 0,49, điều đó có nghĩa là trung bình bạn có thể mã hóa hai ký hiệu từ P bằng hai ký hiệu tương ứng từ Q cộng thêm một bit thông tin bổ sung .


1

Hãy xem xét một nguồn thông tin với phân phối được mã hóa sử dụng mã lý tưởng cho một nguồn thông tin với phân phối . Chi phí mã hóa thêm trên chi phí mã hóa tối thiểu có thể đạt được bằng cách sử dụng mã lý tưởng cho là phân kỳ KL .Q PPQP

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.