Tại sao phân kỳ KL không âm?


17

Tại sao phân kỳ KL không âm?

Từ quan điểm của lý thuyết thông tin, tôi có một sự hiểu biết trực quan như vậy:

Giả sử có hai nhóm AB được tạo thành từ cùng một tập hợp các phần tử được dán nhãn bởi x . p(x)q(x) là các phân phối xác suất khác nhau so với nhóm AB tương ứng.

Từ quan điểm của lý thuyết thông tin, là số tiền ít nhất của các bit mà yêu cầu để ghi lại một yếu tố x cho hòa tấu Một . Vì vậy, kỳ vọng x e n s e m b l e - p ( x ) ln ( p ( x ) ) có thể được hiểu là ít nhất là bao nhiêu bit mà chúng ta cần để ghi một phần tử trong A trung bình.log2(P(x))xA

xensemblep(x)ln(p(x))
A

Vì công thức này đặt trung bình thấp hơn cho các bit mà chúng ta cần trung bình, do đó, đối với một nhóm khác nhau mang lại phân phối xác suất khác nhau q ( x ) , ràng buộc mà nó đưa ra cho mỗi phần tử x chắc chắn sẽ không phải là bit được cho bởi p ( x ) , có nghĩa là lấy kỳ vọng, x e n s e m b l e - p ( x ) ln ( q ( x ) )Bq(x)xp(x)

xensemblep(x)ln(q(x))
chiều dài trung bình này chắc chắn sẽ lớn hơn cái trước, dẫn đến
Tôi không đặtở đây vìp(x)q(x)khác nhau.
xensemblep(x)ln(p(x))ln(q(x))>0
p(x)q(x)

Đây là sự hiểu biết trực quan của tôi, có một cách thuần túy toán học để chứng minh phân kỳ KL là không âm? Vấn đề có thể được nêu là:

p(x)q(x)+p(x)dx=1+q(x)dx=1

+p(x)lnp(x)q(x)

Làm thế nào điều này có thể được chứng minh? Hoặc điều này có thể được chứng minh mà không cần điều kiện thêm?


1
Nếu bạn hiểu bằng chứng của bất bình đẳng của Fano, có thể dễ dàng rút ra được tính không âm của entropy tương đối.
Lerner Zhang

Câu trả lời:


28

Bằng chứng 1:

lnaa1a>0

Bây giờ chúng tôi sẽ chỉ ra rằng -DKL(p||q)0 có nghĩa là DKL(p||q)0

D(p||q)=xp(x)lnp(x)q(x)=xp(x)lnq(x)p(x)(a)xp(x)(q(x)p(x)1)=xq(x)xp(x)=11=0

For inequality (a) we used the ln inequality explained in the beginning.

Alternatively you can start with Gibbs' inequality which states:

xp(x)log2p(x)xp(x)log2q(x)

Then if we bring the left term to the right we get:

xp(x)log2p(x)xp(x)log2q(x)0xp(x)log2p(x)q(x)0

The reason I am not including this as a separate proof is because if you were to ask me to prove Gibbs' inequality, I would have to start from the non-negativity of KL divergence and do the same proof from the top.


Proof 2: We use the Log sum inequality:

i=1nailog2aibi(i=1nai)log2i=1naii=1nbi

Then we can show that DKL(p||q)0:

D(p||q)=xp(x)log2p(x)q(x)(b)(xp(x))log2xp(x)xq(x)=1log211=0

where we have used the Log sum inequality at (b).


Proof 3:

(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)

D(p||q)=xp(x)log2p(x)q(x)=xp(x)log2q(x)p(x)(c)log2xp(x)q(x)p(x)=log21=0

where at (c) we have used Jensen's inequality and the fact that log is a concave function.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.