Giải thích thống kê về phân phối Entropy tối đa


23

Tôi đã sử dụng nguyên tắc entropy tối đa để biện minh cho việc sử dụng một số bản phân phối trong các cài đặt khác nhau; tuy nhiên, tôi vẫn chưa thể xây dựng một thống kê, trái ngược với lý thuyết thông tin, giải thích về entropy tối đa. Nói cách khác, tối đa hóa entropy ngụ ý gì về các thuộc tính thống kê của phân phối?

Có ai chạy qua hoặc có lẽ phát hiện ra cho mình một giải thích thống kê về max. phân phối entropy không thu hút thông tin, nhưng chỉ với các khái niệm xác suất?

Như một ví dụ về cách giải thích như vậy (không nhất thiết là đúng): "Trong một khoảng thời gian L tùy ý trên miền của RV (giả sử đơn giản 1-d của nó để đơn giản), xác suất tối đa có thể có trong khoảng này được giảm thiểu bằng cách phân phối entropy tối đa. "

Vì vậy, bạn thấy không có cuộc nói chuyện nào về "thông tin" hay những ý tưởng triết học khác, chỉ là những hàm ý xác suất.


3
Tôi nghĩ rằng bạn phải cụ thể hơn về những gì bạn đang tìm kiếm: entropy rốt cuộc là "thống kê" một thước đo như phương sai, v.v. vì vậy phân phối entropy tối đa tối đa hóa entropy là một mô tả thống kê hoàn toàn tốt. Vì vậy, dường như với tôi bạn phải đi ra ngoài các số liệu thống kê để đưa ra một "biện minh"
seanv507

1
Seanv: Tôi đồng ý rằng entropy, với tư cách là một chức năng thống kê, chỉ là "thống kê" như phương sai, giá trị kỳ vọng, sai lệch, v.v. một trong một số định lý giới hạn trung tâm và cũng bằng trực giác là các tổng dài hạn (đối với giá trị trung bình) và lỗi RMS (đối với độ lệch chuẩn). Có lẽ tôi nên chia sẻ lại câu hỏi của mình để đọc "Giải thích xác suất của phân phối entropy tối đa".
Annika

1
Annika, phân phối entropy cực đại có việc giải thích như sau: Nếu là các biến ngẫu nhiên iid thì probalitity có điều kiện P ( | X 1 + + X n = n một ) P * ( )n nơi P * là phân phối tối đa entropy từ tập { P : E P X = một }X1,X2,P(|X1++Xn=na)P()nP{P:EPX=a}. Xem thêm ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1
Ashok

2
Cảm ơn Ashok. Ill hãy xem bài báo đó chi tiết hơn. Đây có vẻ như là một trường hợp cụ thể của tối đa hóa entropy cho một giá trị trung bình nhất định, nhưng tôi vẫn tò mò không biết hoạt động tối đa hóa entropy Shanon đang làm gì về mặt toán học sao cho kết quả trên giữ được? Là nó có hiệu quả tối thiểu hóa mật độ tối đa hoặc nồng độ trung bình của các biện pháp xác suất?
Annika

Câu trả lời:


19

Đây không thực sự là lĩnh vực của tôi, vì vậy một số suy nghĩ:

Tôi sẽ bắt đầu với khái niệm bất ngờ . Nó có nghĩa là gì để ngạc nhiên? Thông thường, nó có nghĩa là một cái gì đó đã xảy ra mà không mong muốn xảy ra. Vì vậy, hãy ngạc nhiên khi đó là một khái niệm xác suất và có thể được giải thích như vậy (IJ Good đã viết về điều đó). Xem thêm WikipediaBayesian ngạc nhiên .

Lấy trường hợp cụ thể của một tình huống có / không, điều gì đó có thể xảy ra hoặc không. Nó xảy ra với xác suất p . Nói, nếu p = 0,9 và nó xảy ra, bạn không thực sự ngạc nhiên. Nếu p=0.05 và nó xảy ra, bạn có phần ngạc nhiên. Và nếu p=0.0000001 và nó xảy ra, bạn thực sự ngạc nhiên. Vì vậy, một thước đo tự nhiên của "giá trị bất ngờ trong kết quả quan sát được" là một số chức năng (chống) đơn điệu về xác suất của những gì đã xảy ra. Có vẻ tự nhiên (và hoạt động tốt ...) để lấy logarit xác suất của những gì đã xảy ra, và sau đó chúng tôi ném vào một dấu trừ để có được một số dương. Ngoài ra, bằng cách lấy logarit, chúng tôi tập trung vào thứ tự bất ngờ, và trong thực tế, xác suất thường chỉ được biết theo thứ tự, ít nhiều .

Vì vậy, chúng tôi xác định

Surprise(A)=logp(A)
trong đó A là kết quả quan sát được và p(A) là xác suất của nó.

Bây giờ chúng ta có thể hỏi những gì bất ngờ dự kiến . Đặt X là biến ngẫu nhiên Bernoulli với xác suất p . Nó có hai kết quả có thể là 0 và 1. Các giá trị bất ngờ tương ứng là

Surprise(0)=log(1p)Surprise(1)=logp
nên sự ngạc nhiên khi quan sátXchính là một biến ngẫu nhiên với kỳ vọng
plogp+(1p)log(1p)
và đó là --- bất ngờ! --- entropy củaX! Vì vậy, entropy đượcmong đợi bất ngờ!

Bây giờ, câu hỏi này là về entropy tối đa . Tại sao mọi người muốn sử dụng phân phối entropy tối đa? Chà, chắc là vì họ muốn được ngạc nhiên tối đa! Tại sao mọi người muốn điều đó?

Một cách để xem xét nó là như sau: Bạn muốn tìm hiểu về một cái gì đó, và với mục tiêu đó, bạn thiết lập một số kinh nghiệm học tập (hoặc thử nghiệm ...). Nếu bạn đã biết tất cả mọi thứ về chủ đề này, bạn có thể luôn dự đoán hoàn hảo, vì vậy không bao giờ ngạc nhiên. Sau đó, bạn không bao giờ có được trải nghiệm mới, vì vậy đừng học bất cứ điều gì mới (nhưng bạn đã biết tất cả mọi thứ --- không có gì để học, vì vậy điều đó là ổn). Trong tình huống điển hình hơn mà bạn bối rối, không thể dự đoán hoàn hảo, có một cơ hội học tập! Điều này dẫn đến ý tưởng rằng chúng ta có thể đo lường "lượng học tập có thể" bằng sự ngạc nhiên dự kiến , đó là entropy. Vì vậy, tối đa hóa entropy không gì khác hơn là tối đa hóa cơ hội học tập. Nghe có vẻ như là một khái niệm hữu ích, có thể hữu ích trong việc thiết kế các thí nghiệm và những thứ như vậy.

Một ví dụ thi vị là nổi tiếng

Wenn einer eine reise macht, dann kann er là erzählen ...

Một ví dụ thực tế: Bạn muốn thiết kế một hệ thống cho các bài kiểm tra trực tuyến (có nghĩa là không phải ai cũng có được câu hỏi giống nhau, các câu hỏi được chọn một cách linh hoạt tùy thuộc vào câu trả lời trước, theo cách nào đó, được tối ưu hóa cho mỗi người).

Nếu bạn đưa ra những câu hỏi quá khó, để chúng không bao giờ thành thạo, bạn chẳng học được gì. Điều đó cho thấy bạn phải hạ mức độ khó khăn. Mức độ khó tối ưu là gì, nghĩa là mức độ khó tối đa hóa tỷ lệ học tập là gì? Đặt xác suất trả lời đúng là p . Chúng tôi muốn giá trị của p tối đa hóa entropy Bernoulli. Nhưng đó là p=0.5 . Vì vậy, bạn nhắm đến việc nêu các câu hỏi trong đó xác suất để có được câu trả lời đúng (từ người đó) là 0,5.

Sau đó, trường hợp của một liên tục biến ngẫu nhiên X . Làm thế nào chúng ta có thể ngạc nhiên bằng cách quan sát X ? Xác suất của bất kỳ kết quả cụ thể nào {X=x} là 0, định nghĩa logp là vô ích. Nhưng chúng ta sẽ ngạc nhiên nếu xác suất quan sát thứ gì đó như x là nhỏ, nghĩa là, nếu giá trị hàm mật độ f(x) nhỏ (giả sử f là liên tục). Điều đó dẫn đến định nghĩa

Surprise(x)=logf(x)
Với định nghĩa đó, điều ngạc nhiên mong đợi từ việc quan sát X
E{logf(X)}=f(x)logf(x)dx
có nghĩa là, sự ngạc nhiên dự kiến từ quan sátX là entropy khác biệt củaX . Nó cũng có thể được coi là loglikabilities dự kiến.

Nhưng điều này thực sự không giống như trường hợp đầu tiên, sự kiện. Quá thấy điều đó, một ví dụ. Đặt biến ngẫu nhiên X đại diện cho chiều dài ném đá (nói trong một cuộc thi thể thao). Để đo chiều dài đó, chúng ta cần chọn một đơn vị độ dài, vì không có thang đo nội tại theo chiều dài, vì có xác suất. Chúng ta có thể đo bằng mm hoặc km, hoặc thường hơn, tính bằng mét. Nhưng định nghĩa của chúng tôi về bất ngờ, do đó bất ngờ được mong đợi, phụ thuộc vào đơn vị được chọn, do đó không có bất biến. Vì lý do đó, các giá trị của entropy vi sai không thể so sánh trực tiếp với cách mà entropy của Shannon. Nó vẫn có thể hữu ích, nếu một người nhớ vấn đề này.


5
Đây là một trong những giải thích tốt nhất và trực quan về entropy tối đa mà tôi đã thấy!
Vladislavs Dovgalecs

3

Mặc dù không phải là một chuyên gia về lý thuyết thông tin và entropy tối đa, tôi đã quan tâm đến nó trong một thời gian.

Entropy là thước đo độ không đảm bảo của phân phối xác suất được lấy theo một bộ tiêu chí. Nó và các biện pháp liên quan đặc trưng cho phân phối xác suất. Và, đó là biện pháp duy nhất thỏa mãn những tiêu chí đó. Điều này tương tự như trường hợp xác suất, như được giải thích rất hay trong Jaynes (2003), là biện pháp duy nhất thỏa mãn một số tiêu chí rất mong muốn đối với bất kỳ thước đo nào về tính không chắc chắn của các phát biểu logic.

Bất kỳ thước đo nào khác về độ không đảm bảo của phân phối xác suất khác với entropy sẽ phải vi phạm một hoặc nhiều tiêu chí được sử dụng để xác định entropy (nếu không thì nhất thiết phải là entropy). Vì vậy, nếu bạn có một số tuyên bố chung về xác suất mà bằng cách nào đó đã cho kết quả tương tự như entropy tối đa ... thì đó sẽ entropy tối đa!

Điều gần nhất mà tôi có thể tìm thấy cho một tuyên bố xác suất về phân phối entropy tối đa cho đến nay là định lý tập trung của Jaynes . Bạn có thể tìm thấy nó được giải thích rõ ràng trong Kapur và Kesavan (1992). Đây là một sự nghỉ ngơi lỏng lẻo:

pnpii=1,...,nmm+1

Sm+1Smax

N

2N(SmaxS)χnm12.

(Smaxχnm12(0.95)2N,Smax).
Smaxχnm12(0.95)2N

ET Jaynes (2003) Lý thuyết xác suất: Logic của khoa học. Nhà xuất bản Đại học Cambridge.

JN Kapur và .K. Kesavan (1992) Nguyên tắc tối ưu hóa Entropy với các ứng dụng. Học thuật báo chí, Inc.


3

σ

"Do đó, trong cách giải thích này, định lý giới hạn trung tâm cơ bản biểu thị thực tế rằng entropy trên mỗi ký hiệu của các biến ngẫu nhiên độc lập với giá trị trung bình bằng 0 và phương sai chung có xu hướng tối đa. Điều này có vẻ hợp lý; định luật thứ hai của nhiệt động lực học, mà Eddington coi là nắm giữ 'vị trí tối cao trong số các quy luật tự nhiên'. "

Tôi chưa khám phá những tác động của điều này, tôi cũng không chắc là tôi hoàn toàn hiểu chúng.

[sửa: sửa lỗi chính tả]

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.