Thu thập thông tin, thông tin lẫn nhau và các biện pháp liên quan


33

Andrew More định nghĩa thông tin đạt được là:

IG(Y|X)=H(Y)H(Y|X)

Trong đó là entropy có điều kiện . Tuy nhiên, Wikipedia gọi số lượng thông tin lẫn nhau ở trên .H(Y|X)

Mặt khác, Wikipedia định nghĩa mức tăng thông tin là phân kỳ KullbackTHER Leibler (còn gọi là phân kỳ thông tin hoặc entropy tương đối) giữa hai biến ngẫu nhiên:

DKL(P||Q)=H(P,Q)H(P)

Trong đó được định nghĩa là entropy chéo .H(P,Q)

Hai định nghĩa này dường như không nhất quán với nhau.

Tôi cũng đã thấy các tác giả khác nói về hai khái niệm liên quan bổ sung, đó là entropy khác biệt và thu được thông tin tương đối.

Định nghĩa chính xác hoặc mối quan hệ giữa các đại lượng này là gì? Có một cuốn sách văn bản tốt bao gồm tất cả?

  • Thu thập thông tin
  • Thông tin lẫn nhau
  • Entropy chéo
  • Entropy có điều kiện
  • Entropy khác biệt
  • Tăng thông tin tương đối

2
Để thêm vào sự nhầm lẫn, lưu ý rằng ký hiệu bạn đã sử dụng cho entropy chéo cũng là ký hiệu tương tự được sử dụng cho entropy chung. Tôi đã sử dụng cho entropy chéo để tránh nhầm lẫn bản thân, nhưng đó là vì lợi ích của tôi và tôi chưa bao giờ thấy ký hiệu đó ở nơi khác. Hx(P,Q)
Michael McGowan

Câu trả lời:


24

Tôi nghĩ rằng việc gọi phân kỳ Kullback-Leibler là "thu thập thông tin" là không chuẩn.

Định nghĩa đầu tiên là tiêu chuẩn.

EDIT: Tuy nhiên, cũng có thể được gọi là thông tin lẫn nhau.H(Y)H(Y|X)

Lưu ý rằng tôi không nghĩ rằng bạn sẽ tìm thấy bất kỳ ngành khoa học nào thực sự có sơ đồ đặt tên chuẩn, chính xác và nhất quán. Vì vậy, bạn sẽ luôn phải xem các công thức, bởi vì chúng thường sẽ cho bạn một ý tưởng tốt hơn.

Sách giáo khoa: xem "Giới thiệu tốt về các loại entropy khác nhau" .

Ngoài ra: Cosma Shalizi: Phương pháp và kỹ thuật của khoa học hệ thống phức tạp: Tổng quan, chương 1 (trang 33--114) trong Thomas S. Deisboeck và J. Yasha Kresh (chủ biên), Khoa học hệ thống phức tạp trong y sinh học http: // arxiv.org/abs/nlin.AO/0307015

Robert M. Gray: Entropy và Lý thuyết thông tin http://ee.stanford.edu/~gray/it.html

David MacKay: Lý thuyết thông tin, suy luận và thuật toán học tập http://www.inference.phy.cam.ac.uk/mackay/itila/book.html

Ngoài ra, "entropy và thông tin đạt được là gì?"


Cảm ơn @wolf. Tôi có khuynh hướng chấp nhận câu trả lời này. Nếu định nghĩa đầu tiên là tiêu chuẩn, bạn sẽ xác định thông tin lẫn nhau như thế nào?
Amelio Vazquez-Reina

2
lấy làm tiếc. số lượng đầu tiên, cũng thường được gọi là thông tin lẫn nhau. Đó là một trường hợp đặt tên không nhất quán. Như tôi đã nói, tôi không nghĩ rằng có bất kỳ sự tương ứng nhất quán, rõ ràng, một-một của các khái niệm và tên. Ví dụ: "thông tin lẫn nhau" hoặc "thông tin đạt được" là một trường hợp đặc biệt của phân kỳ KL, do đó bài viết trên wikipedia không còn xa. IG(Y|X)=H(Y)H(Y|X)
sói.rauch

4

Sự phân kỳ Kullback-Leiber giữa p(X,Y)P(X)P(Y) giống như thông tin lẫn nhau, có thể dễ dàng rút ra:

I(X;Y)=H(Y)H(YX)=yp(y)logp(y)+x,yp(x)p(yx)logp(yx)=x,yp(x,y)logp(yx)y(xp(x,y))logp(y)=x,yp(x,y)logp(yx)x,yp(x,y)logp(y)=x,yp(x,y)logp(yx)p(y)=x,yp(x,y)logp(yx)p(x)p(y)p(x)=x,yp(x,y)logp(x,y)p(y)p(x)=DKL(P(X,Y)∣∣P(X)P(Y))

Note: p(y)=xp(x,y)


1

Mutual information can be defined using Kullback-Liebler as

I(X;Y)=DKL(p(x,y)||p(x)p(y)).

1

Extracting mutual information from textual datasets as a feature to train machine learning model: ( the task was to predict age, gender and personality of bloggers)

enter image description here


1

Both definitions are correct, and consistent. I'm not sure what you find unclear as you point out multiple points that might need clarification.

Firstly: MIMutualInformation IGInformationGainIInformation are all different names for the same thing. In different contexts one of these names may be preferable, i will call it hereon Information.

The second point is the relation between the Kullback–Leibler divergence-DKL, and Information. The Kullback–Leibler divergence is simply a measure of dissimilarity between two distributions. The Information can be defined in these terms of distributions' dissimilarity (see Yters' response). So information is a special case of KLD, where KLD is applied to measure the difference between the actual joint distribution of two variables (which captures their dependence) and the hypothetical joint distribution of the same variables, were they to be independent. We call that quantity Information.

The third point to clarify is the inconsistent, though standard notation being used, namely that H(X,Y) is both the notation for Joint entropy and for Cross-entropy as well.

So, for example, in the definition of Information:

in both last lines, H(X,Y) is the joint entropy. This may seem inconsistent with the definition in the Information gain page however: DKL(P||Q)=H(P,Q)H(P) but you did not fail to quote the important clarification - H(P,Q) is being used there as the cross-entropy (as is the case too in the cross entropy page).

Joint-entropy and Cross-entropy are NOT the same.

Check out this and this where this ambiguous notation is addressed and a unique notation for cross-entropy is offered - Hq(p)

I would hope to see this notation accepted and the wiki-pages updated.


wonder why the equations are not displayed properly..
Shaohua Li
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.