Tại sao Entropy được tối đa hóa khi phân phối xác suất đồng đều?


32

Tôi biết rằng entropy là thước đo tính ngẫu nhiên của một quá trình / biến và nó có thể được định nghĩa như sau. cho một biến ngẫu nhiên tập : - . Trong cuốn sách về Entropy và Lý thuyết thông tin của MacKay, ông cung cấp tuyên bố này trong Ch2A H ( X ) = x iA - p ( x i ) log ( p ( x i ) )XAH(X)=xiAp(xi)log(p(xi))

Entropy được tối đa hóa nếu p là thống nhất.

Theo trực giác, tôi có thể hiểu nó, giống như nếu tất cả các điểm dữ liệu trong tập được chọn với xác suất bằng nhau ( là cardinality của tập ), thì độ ngẫu nhiên hoặc entropy tăng. Nhưng nếu chúng ta biết rằng một số điểm trong tập sẽ xảy ra với xác suất cao hơn các điểm khác (giả sử trong trường hợp phân phối bình thường, trong đó nồng độ tối đa của các điểm dữ liệu nằm xung quanh khu vực độ lệch chuẩn trung bình và nhỏ xung quanh nó, thì tính ngẫu nhiên hoặc entropy nên giảm.1 / m m A AA1/mmAA

Nhưng có bằng chứng toán học nào cho việc này không? Giống như phương trình của tôi phân biệt nó với và đặt nó thành 0 hoặc đại loại như thế.p ( x )H(X)p(x)

Mặt khác, có bất kỳ mối liên hệ nào giữa entropy xảy ra lý thuyết thông tin và tính toán entropy trong hóa học (nhiệt động lực học) không?


2
Câu hỏi này được trả lời (qua) tại stats.stackexchange.com/a/49174/919 .
whuber

Tôi đang khá bối rối với một tuyên bố khác được đưa ra trong cuốn sách của Christopher Bishops nói rằng "đối với một biến thực duy nhất, phân phối tối đa hóa entropy là Gaussian." Nó cũng nói rằng "phân phối đa biến với entropy cực đại, với một hiệp phương sai cho trước, là một Gaussian". Tuyên bố này có giá trị như thế nào? Không phải entropy của phân phối đồng phục luôn luôn tối đa sao?
user76170

6
Tối đa hóa luôn luôn được thực hiện theo các ràng buộc về giải pháp có thể. Khi các ràng buộc là tất cả xác suất phải biến mất vượt quá giới hạn được xác định trước, giải pháp entropy tối đa là đồng nhất. Thay vào đó, khi các ràng buộc là kỳ vọng và phương sai phải bằng các giá trị được xác định trước, giải pháp ME là Gaussian. Các tuyên bố bạn trích dẫn phải được thực hiện trong các bối cảnh cụ thể nơi các ràng buộc này đã được nêu hoặc ít nhất là được hiểu ngầm.
whuber

2
Tôi có lẽ cũng nên đề cập rằng từ "entropy" có nghĩa là một cái gì đó khác trong cài đặt Gaussian so với câu hỏi ban đầu ở đây, vì sau đó chúng ta đang thảo luận về entropy của các phân phối liên tục . Đây "khác biệt entropy" là một động vật khác nhau hơn so với entropy của phân bố rời rạc. Sự khác biệt chính là entropy vi phân không bất biến dưới sự thay đổi của các biến.
whuber

Vì vậy, điều đó có nghĩa là tối đa hóa luôn luôn liên quan đến các ràng buộc? Nếu không có ràng buộc thì sao? Ý tôi là, không thể có một câu hỏi như thế này? Phân phối xác suất nào có entropy tối đa?
user76170

Câu trả lời:


25

Theo kinh nghiệm, hàm mật độ xác suất trên với entropy tối đa hóa ra là tương ứng với lượng kiến ​​thức ít nhất về { x 1 , x 2 , . . , . x n } , nói cách khác là phân phối Thống nhất.{x1,x2,..,.xn}{x1,x2,..,.xn}

Bây giờ, để có bằng chứng chính thức hơn, hãy xem xét những điều sau đây:

Hàm mật độ xác suất trên là một tập hợp các số thực không âm p 1 , . . . , P n mà thêm lên đến 1. Entropy là một hàm liên tục của n -tuples ( p 1 , . . . , P n ) , và những điểm nằm trong một tập con compact của R n , do đó là một n{x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn-tuple nơi entropy được tối đa hóa. Chúng tôi muốn thể hiện điều này xảy ra ở và nơi nào khác.(1/n,...,1/n)

Giả sử không bằng nhau, giả sử p 1 < p 2 . (Rõ ràng n 1 .) Chúng tôi sẽ tìm thấy một mật độ xác suất mới với entropy cao hơn. Sau đó, vì entropy được tối đa hóa ở một số n -tuple, entropy đó được tối đa hóa duy nhất tại n -tuple với p i = 1 / n cho tất cả i .pjp1<p2n1nnpi=1/ni

Kể từ , cho dương nhỏ ε chúng ta có p 1 + ε < p 2 - ε . Entropy của { p 1 + ε , p 2 - ε , p 3 , . . . , p n } trừ entropy của { p 1 , p 2 , p 3 , . . . , pp1<p2εp1+ε<p2ε{p1+ε,p2ε,p3,...,pn} bằng{p1,p2,p3,...,pn}

p1log(p1+εp1)εlog(p1+ε)p2log(p2εp2)+εlog(p2ε)
To complete the proof, we want to show this is positive for small enough ε. Rewrite the above equation as
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

log(1+x)=x+O(x2)x

εεlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
which is positive when ε is small enough since p1<p2.

A less rigorous proof is the following:

Consider first the following Lemma:

Let p(x) and q(x) be continuous probability density functions on an interval I in the real numbers, with p0 and q>0 on I. We have

IplogpdxIplogqdx
if both integrals exist. Moreover, there is equality if and only if p(x)=q(x) for all x.

Now, let p be any probability density function on {x1,...,xn}, with pi=p(xi). Letting qi=1/n for all i,

i=1npilogqi=i=1npilogn=logn
which is the entropy of q. Therefore our Lemma says h(p)h(q), with equality if and only if p is uniform.

Also, wikipedia has a brief discussion on this as well: wiki


11
I admire the effort to present an elementary (Calculus-free) proof. A rigorous one-line demonstration is available via the weighted AM-GM inequality by noting that exp(H) = (1pi)pipi1pi=n with equality holding iff all the 1/pi are equal, QED.
whuber

I don't understand how logn can be equal to logn.
user1603472

4
@user1603472 do you mean i=1npilogn=logn? Its because i=1npilogn=logni=1npi=logn×1
HBeel

@Roland I pulled the logn outside of the sum since it does not depend on i. Then the sum is equal to 1 because p1,,pn are the densities of a probability mass function.
HBeel

Same explanation with more details can be found here: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Roland

14

Entropy in physics and information theory are not unrelated. They're more different than the name suggests, yet there's clearly a link between. The purpose of entropy metric is to measure the amount of information. See my answer with graphs here to show how entropy changes from uniform distribution to a humped one.

The reason why entropy is maximized for a uniform distribution is because it was designed so! Yes, we're constructing a measure for the lack of information so we want to assign its highest value to the least informative distribution.

Example. I asked you "Dude, where's my car?" Your answer is "it's somewhere in USA between Atlantic and Pacific Oceans." This is an example of the uniform distribution. My car could be anywhere in USA. I didn't get much information from this answer.

However, if you told me "I saw your car one hour ago on Route 66 heading from Washington, DC" - this is not a uniform distribution anymore. The car's more likely to be in 60 miles distance from DC, than anywhere near Los Angeles. There's clearly more information here.

Hence, our measure must have high entropy for the first answer and lower one for the second. The uniform must be least informative distribution, it's basically "I've no idea" answer.


7

The mathematical argument is based on Jensen inequality for concave functions. That is, if f(x) is a concave function on [a,b] and y1,yn are points in [a,b], then: nf(y1+ynn)f(y1)++f(yn)

Apply this for the concave function f(x)=xlog(x) and Jensen inequality for yi=p(xi) and you have the proof. Note that p(xi) define a discrete probability distribution, so their sum is 1. What you get is log(n)i=1np(xi)log(p(xi)), with equality for the uniform distribution.


1
Tôi thực sự tìm thấy bằng chứng bất bình đẳng của Jensen là một bằng chứng sâu sắc hơn nhiều về mặt khái niệm so với AM-GM.
Casebash

4

On a side note, is there any connnection between the entropy that occurs information theory and the entropy calculations in chemistry (thermodynamics) ?

Yes, there is! You can see the work of Jaynes and many others following his work (such as here and here, for instance).

But the main idea is that statistical mechanics (and other fields in science, also) can be viewed as the inference we do about the world.

As a further reading I'd recommend Ariel Caticha's book on this topic.


1

An intuitive explanation:

If we put more probability mass into one event of a random variable, we will have to take away some from other events. The one will have less information content and more weight, the others more information content and less weight. Therefore the entropy being the expected information content will go down since the event with lower information content will be weighted more.

As an extreme case imagine one event getting probability of almost one, therefore the other events will have a combined probability of almost zero and the entropy will be very low.


0

Main idea: take partial derivative of each pi, set them all to zero, solve the system of linear equations.

Take a finite number of pi where i=1,...,n for an example. Denote q=1i=0n1pi.

H=i=0n1pilogpi(1q)logqHln2=i=0n1pilnpi(1q)lnq
Hpi=lnqpi=0
Then q=pi for every i, i.e., p1=p2=...=pn.


I am glad you pointed out this is the "main idea," because it's only a part of the analysis. The other part--which might not be intuitive and actually is a little trickier--is to verify this is a global minimum by studying the behavior of the entropy as one or more of the pi shrinks to zero.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.