Phân kỳ Kullback-Leibler không phải là một số liệu đúng, vì nó không đối xứng và cũng không thỏa mãn bất đẳng thức tam giác. Vì vậy, "vai trò" của hai bản phân phối là khác nhau và điều quan trọng là phân phối các vai trò này theo hiện tượng trong thế giới thực đang nghiên cứu.
Khi chúng ta viết (OP đã tính biểu thức bằng logarit cơ số 2)
K ( P| | Q)= ΣTôiđăng nhập2( pTôi/ qTôi) pTôi
chúng tôi coi phân phối là "phân phối mục tiêu" (thường được coi là phân phối thực sự), mà chúng tôi ước tính bằng cách sử dụng phân phốiQPQ
Hiện nay,
ΣTôiđăng nhập2( pTôi/ qTôi) pTôi= ∑Tôiđăng nhập2( pTôi) pTôi- ΣTôiđăng nhập2( qTôi) pTôi= - H( P) - EP( ln( Q ) )
Trong đó là entropy Shannon của phân phối và được gọi là "entropy chéo của và " - cũng không đối xứng.P - E P ( ln ( Q ) ) P QH( P)P−EP(ln(Q))PQ
Viết
K(P||Q)=H(P,Q)−H(P)
(ở đây cũng vậy, thứ tự mà chúng ta viết các bản phân phối trong sự biểu hiện của các vấn đề cross-entropy, vì nó quá là không đối xứng), cho phép chúng ta thấy rằng KL-phân kỳ phản ánh sự gia tăng entropy trong entropy không thể tránh khỏi của phân phối .P
Vì vậy, không , phân kỳ KL tốt hơn không nên được hiểu là "thước đo khoảng cách" giữa các phân phối, mà là thước đo tăng entropy do sử dụng xấp xỉ với phân phối thực chứ không phải là phân phối thực .
Vì vậy, chúng tôi đang ở trong lý thuyết thông tin đất. Để nghe nó từ các bậc thầy (Cover & Thomas) "
... Nếu chúng ta biết phân phối của biến ngẫu nhiên, chúng ta có thể xây dựng mã với độ dài mô tả trung bình . Thay vào đó, nếu chúng ta sử dụng mã cho phân phối , chúng ta sẽ cần các bit để mô tả biến ngẫu nhiên.H ( P ) Q H ( P ) + K ( P | | Q )PH(P)QH(P)+K(P||Q)
Những người khôn ngoan cũng nói như vậy.
... nó không phải là một khoảng cách thực sự giữa các phân phối vì nó không đối xứng và không thỏa mãn bất đẳng thức tam giác. Tuy nhiên, thường rất hữu ích khi nghĩ về entropy tương đối như một khoảng cách khác giữa các bản phân phối.
Nhưng phương pháp thứ hai này hữu ích chủ yếu khi người ta cố gắng giảm thiểu phân kỳ KL để tối ưu hóa một số thủ tục ước tính. Đối với việc giải thích các giá trị số của nó cho mỗi gia nhập , nó không phải là hữu ích, và ta nên thích "tăng entropy" cách tiếp cận.
Đối với các bản phân phối cụ thể của câu hỏi (luôn sử dụng logarit cơ số 2)
K(P||Q)=0.49282,H(P)=1.9486
Nói cách khác, bạn cần 25% nhiều bit để mô tả tình trạng này nếu bạn đang sử dụng trong khi phân phối thực sự là . Điều này có nghĩa là các dòng mã dài hơn, nhiều thời gian hơn để viết chúng, nhiều bộ nhớ hơn, nhiều thời gian hơn để đọc chúng, xác suất mắc lỗi cao hơn v.v ... không phải ngẫu nhiên mà Cover & Thomas nói rằng KL-Divergence (hay "entropy tương đối") " đo lường sự kém hiệu quả gây ra bởi sự gần đúng. "PQP