Phân kỳ Kullback-Leibler KHÔNG CÓ lý thuyết thông tin


23

Sau nhiều lần thử nghiệm Xác thực chéo, tôi vẫn không cảm thấy mình gần gũi hơn với việc hiểu phân kỳ KL ngoài phạm vi của lý thuyết thông tin. Thật kỳ lạ khi ai đó có nền tảng Toán học để tìm hiểu giải thích lý thuyết thông tin dễ dàng hơn nhiều.

Để phác thảo sự hiểu biết của tôi từ một nền tảng lý thuyết thông tin: Nếu chúng ta có một biến ngẫu nhiên với số lượng kết quả hữu hạn, thì tồn tại một mã hóa tối ưu cho phép chúng ta trao đổi kết quả với một người khác với thông điệp ngắn nhất (tôi thấy điều này dễ nhất hình ảnh về các bit). Độ dài dự kiến ​​của tin nhắn người ta sẽ cần để truyền đạt kết quả được đưa ra bởi

αpαlog2(pα)
nếu sử dụng mã hóa tối ưu. Nếu bạn sử dụng một mã hóa tối ưu phụ, thì phân kỳ KL cho chúng ta biết trung bình thời gian tin nhắn của chúng ta sẽ kéo dài bao lâu.

Tôi thích cách giải thích này, bởi vì nó khá trực quan đối phó với sự bất đối xứng của phân kỳ KL. Nếu chúng ta có hai hệ thống khác nhau, tức là hai đồng tiền được tải khác nhau, chúng sẽ có các bảng mã tối ưu khác nhau. Tôi không bằng cách nào đó cảm thấy theo bản năng rằng việc sử dụng mã hóa của hệ thống thứ hai cho lần đầu tiên là "tệ như nhau" đối với việc sử dụng mã hóa của hệ thống thứ nhất cho lần thứ hai. Mà không phải trải qua quá trình suy nghĩ như thế nào tôi thuyết phục bản thân mình, Tôi bây giờ khá hạnh phúc vì

αpα(log2qαlog2pα)
mang đến cho bạn này "chiều dài nhắn thêm mong đợi" khi sử dụng, q 's mã hóa cho p .

Tuy nhiên, hầu hết các định nghĩa về phân kỳ KL, bao gồm Wikipedia sau đó đưa ra tuyên bố (giữ điều này theo các thuật ngữ riêng biệt để có thể so sánh với cách giải thích lý thuyết thông tin hoạt động tốt hơn nhiều về mặt rời rạc vì các bit rời rạc) rằng nếu chúng ta có hai xác suất rời rạc phân phối, sau đó KL cung cấp một số số liệu "chúng khác nhau như thế nào". Tôi vẫn chưa thấy một lời giải thích duy nhất về cách hai khái niệm này thậm chí có liên quan với nhau. Tôi dường như nhớ trong cuốn sách về suy luận của mình, Dave Mackay đưa ra quan điểm về cách nén dữ liệu và suy luận về cơ bản là giống nhau, và tôi nghi ngờ câu hỏi của tôi thực sự liên quan đến vấn đề này.

Bất kể đó là hay không, loại câu hỏi tôi có trong đầu là xung quanh các vấn đề suy luận. (Giữ mọi thứ riêng biệt), nếu chúng ta có hai mẫu phóng xạ và chúng ta biết rằng một trong số chúng là một vật liệu nhất định có phóng xạ đã biết (đây là vật lý đáng ngờ nhưng hãy giả vờ vũ trụ hoạt động như vậy) và do đó chúng ta biết phân phối "thật" các nhấp chuột phóng xạ, chúng ta nên đo lường bằng poissoniaλ , nó là công bằng để xây dựng một phân phối thực nghiệm cho cả hai mẫu và so sánh sự chênh lệch KL của họ để phân phối biết và nói rằng thấp hơn là nhiều khả năng được tài liệu nào?

Tránh xa vật lý đáng ngờ, nếu tôi biết hai mẫu được lấy từ cùng một phân phối nhưng tôi biết chúng không được chọn ngẫu nhiên, sẽ so sánh các phân kỳ KL của chúng với phân phối toàn cầu đã biết, cho tôi cảm giác về các mẫu "thiên vị" như thế nào , liên quan đến cái này và cái khác nào?

Và cuối cùng, nếu câu trả lời cho các câu hỏi trước là có, thì tại sao? Có thể hiểu những điều này từ quan điểm thống kê một mình mà không thực hiện bất kỳ kết nối (có thể khó khăn) nào với lý thuyết thông tin?


1
Xem câu trả lời của tôi ở đây: stats.stackexchange.com/questions/188903/ mà không đề cập đến lý thuyết thông tin
kjetil b halvorsen

1
Là phân kỳ KL không hoàn toàn là một khái niệm lý thuyết thông tin? Tôi biết nó cung cấp thông tin lẫn nhau giữa Bayesian trước và sau hoặc tương tự, và tôi nhớ đã nhìn thấy nó một lần trong bối cảnh Fenchel biến đổi / liên hợp (lý thuyết sai lệch lớn), nhưng trong mọi trường hợp tôi nghĩ đó là một khái niệm lý thuyết thông tin .
Chill2Macht

Câu trả lời:


23

Có một cách tiếp cận hoàn toàn thống kê để Kullback-Leibler phân kỳ: lấy một mẫu IID từ một phân phối chưa biết p và xem xét phù hợp với tiềm năng bởi một gia đình của các bản phân phối, F = { p θX1,,Xnp Khả năng tương ứng được định nghĩa là L ( θ | x 1 , ... , x n ) = n Π i = 1 p θ ( x i ) và logarit của nó là ( θ | x 1 , ... , x n ) = n i = 1 log p θ ( x i )

F={pθ, θΘ}
L(θ|x1,,xn)=i=1npθ(xi)
(θ|x1,,xn)=i=1nlogpθ(xi)
Do đó, là một phần thú vị của sự phân kỳ Kullback-Leibler giữa p θ p H ( p θ | p ) def = log { p ( x ) / p θ ( x ) }
1n(θ|x1,,xn)E[logpθ(X)]=logpθ(x)p(x)dx
pθp phần khác log { p ( x ) }
H(pθ|p)=deflog{p(x)/pθ(x)}p(x)dx
ở đó phải có tối thiểu [trong θ ] của H ( p θ | p ) bằng không.
log{p(x)}p(x)dx
θH(pθ|p)

Một cuốn sách kết nối sự khác biệt, lý thuyết thông tin và suy luận thống kê là ước tính tối ưu các thông số của Rissanen , mà tôi đã xem xét ở đây .


Bất kỳ khả năng nhìn thấy một ví dụ bằng số này?
Paul Uszak

Vâng, tôi có nghĩa là nhìn thấy một số con số thực tế. Lý thuyết là dễ thương nhưng thế giới chạy trên những con số. Không có ví dụ về phân kỳ KL sử dụng các số thực tế, vì vậy tôi rút ra kết luận rằng đó là một lý thuyết không có ứng dụng khả thi. OP đã thảo luận về độ dài của tin nhắn theo bit và nén dữ liệu. Tôi đã đề cập đến bất kỳ ví dụ nào có một số bit trong đó ...
Paul Uszak

2
@PaulUszak: nếu tôi nói với bạn rằng khoảng cách Kullaback-Leibler giữa phân phối N (0,1) và N (1,1) là 1/2, điều này có ích gì?
Tây An

2
@ Tây An: Phải có mối liên hệ nào đó giữa con số 1/2 đó và sức mạnh của phép thử tỷ lệ khả năng tương ứng?
kjetil b halvorsen

7
+1 Re chủ đề bình luận: Tâm trí suy nghĩ rằng bất kỳ khái niệm nào không thể giảm xuống thành "số bit" là vô ích.
whuber

8

Dưới đây là một diễn giải thống kê về sự phân kỳ Kullback-Leibler, được lấy một cách lỏng lẻo từ IJ Good ( Trọng lượng bằng chứng: Một khảo sát ngắn , Bayesian Statistics 2, 1985).

Trọng lượng của bằng chứng.

x1,x2,,xnf0H1H2f0H1={f1}H2={f2}f0f1f2 .

x=(x1,,xn)H1H2

W(x)=logf1(x)f2(x).
PH0H1W
logP(H0|x)P(H1|x)=W(x)+logP(H0)P(H1).
W(x1,,xn)=W(x1)++W(xn).
W(x)xH1H2 ".

xW(x)W(x)>2 bằng chứng " (Tôi không khuyến khích việc sử dụng mù các bảng như vậy, làm phiền bạn).

Phân kỳ Kullback-Leibler

f1f2xf1

KL(f1,f2)=Exf1W(x)=f1logf1f2.

xf1H1={f1}H2

Exf1W(x)0.

1

Tôi vẫn chưa thấy một lời giải thích duy nhất về cách hai khái niệm này thậm chí có liên quan với nhau.

Tôi không biết nhiều về lý thuyết thông tin, nhưng đây là cách tôi nghĩ về nó: khi tôi nghe một người lý thuyết thông tin nói "độ dài của tin nhắn", não tôi nói "bất ngờ". Bất ngờ là 1.) ngẫu nhiên và 2.) chủ quan.

Bởi 1.) Tôi có nghĩa là "bất ngờ" chỉ là một biến đổi của biến ngẫu nhiên của bạn X, sử dụng một số phân phối q(X). Bất ngờ được định nghĩa là-đăng nhậpq(X)và đây là định nghĩa cho dù bạn có biến ngẫu nhiên rời rạc hay không.

Bất ngờ là một biến ngẫu nhiên, vì vậy cuối cùng chúng tôi muốn có một kỳ vọng để biến nó thành một con số duy nhất. Bởi 2), khi tôi nói "chủ quan", ý tôi là bạn có thể sử dụng bất kỳ phân phối nào bạn muốn (q), để biên đổi X. Tuy nhiên, sự kỳ vọng sẽ luôn được thực hiện đối với phân phối "thật",p. These may or may not be equal. If you transform with the true p, you have Ep[logp(X)], that's entropy. If some other distribution q that's not equal to p, you get Ep[logq(X)], and that's cross entropy. Notice how if you use the wrong distribution, you always have a higher expected surprise.

Instead of thinking about "how different they are" I think about the "increase in expected surprise from using the wrong distribution." This is all from properties of the logarithm.

Ep[log(p(X)q(X))]=Ep[logq(X)]Ep[logp(X)]0.

Edit

Response to: "Can you elaborate on how log(q(x)) is a measure of "surprise"? This quantity alone seems meaningless, as it is not even invariant under linear transforms of the sample space (I assume q is a pdf)"

For one, think about what it maps values of X to. If you have a q that maps a certain value x to 0, then log(0)=. For discrete random variables, realizations with probability 1 have "surprise" 0.

Second, log is injective, so there is no way rarer values get less surprise than less rare ones.

For continuous random variables, a q(x)>1 will coincide with a negative surprise. I guess this is a downside.

Olivier seems to be hinting at a property his "weight of evidence" quantity has that mine does not, which he calls an invariance under linear transformations (I'll admit I don't totally understand what he means by sample space). Presumably he is talking about if XqX(x), then Y=aX+bqx((yb)/a)|1/a| as long as X is continuous. Clearly logqX(X)logqY(Y) due to the Jacobian.

I don't see how this renders the quantity "meaningless," though. In fact I have a hard time understanding why invariance is a desirable property in this case. Scale is probably important. Earlier, in a commment, I mentioned the example of variance, wherein the random variable we are taking the expectation of is (XEX)2. We could interpret this as "extremeness." This quantity suffers from lack of invariance as well, but it doesn't render meaningless peoples' intuition about what variance is.

Edit 2: looks like I'm not the only one who thinks of this as "surprise." From here:

The residual information in data y conditional on θ may be defined (up to a multiplicative constant) as 2log{p(yθ)} (Kullback and Leibler, 1951; Burnham and Anderson, 1998) and can be interpreted as a measure of 'surprise' (Good, 1956), logarithmic penalty (Bernardo, 1979) or uncertainty.


1
Can you elaborate on how log(q(x)) is a measure of "surprise"? This quantity alone seems meaningless, as it is not even invariant under linear transforms of the sample space (I assume q is a pdf).
Olivier

1
Let T be the transform T(X)=aX, a0. Since T is invertible, observing T(x) is, for me, the same as observing x: I can easily transform one into the other. Why should I be more surprised at observing T(x) than I am at observing x? (if logqT(X)(T(x))>logqX(x)) Invariance under invertible transforms is necessary to avoid this contradiction.
Olivier

@Olivier yes this was all covered in my edit already. I don't see a contradiction. Consider variance, where you take the expectation of the transformation (XE[X])2. You could regard this random quantity as "extremeness." But you don't see me complaining about the lack of invariance
Taylor
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.