Đây không thực sự là lĩnh vực của tôi, vì vậy một số suy nghĩ:
Tôi sẽ bắt đầu với khái niệm bất ngờ . Nó có nghĩa là gì để ngạc nhiên? Thông thường, nó có nghĩa là một cái gì đó đã xảy ra mà không mong muốn xảy ra. Vì vậy, hãy ngạc nhiên khi đó là một khái niệm xác suất và có thể được giải thích như vậy (IJ Good đã viết về điều đó). Xem thêm Wikipedia và Bayesian ngạc nhiên .
Lấy trường hợp cụ thể của một tình huống có / không, điều gì đó có thể xảy ra hoặc không. Nó xảy ra với xác suất p . Nói, nếu p = 0,9 và nó xảy ra, bạn không thực sự ngạc nhiên. Nếu p=0.05 và nó xảy ra, bạn có phần ngạc nhiên. Và nếu p=0.0000001 và nó xảy ra, bạn thực sự ngạc nhiên. Vì vậy, một thước đo tự nhiên của "giá trị bất ngờ trong kết quả quan sát được" là một số chức năng (chống) đơn điệu về xác suất của những gì đã xảy ra. Có vẻ tự nhiên (và hoạt động tốt ...) để lấy logarit xác suất của những gì đã xảy ra, và sau đó chúng tôi ném vào một dấu trừ để có được một số dương. Ngoài ra, bằng cách lấy logarit, chúng tôi tập trung vào thứ tự bất ngờ, và trong thực tế, xác suất thường chỉ được biết theo thứ tự, ít nhiều .
Vì vậy, chúng tôi xác định
Surprise(A)=−logp(A)
trong đó A là kết quả quan sát được và p(A) là xác suất của nó.
Bây giờ chúng ta có thể hỏi những gì bất ngờ dự kiến . Đặt X là biến ngẫu nhiên Bernoulli với xác suất p . Nó có hai kết quả có thể là 0 và 1. Các giá trị bất ngờ tương ứng là
Surprise(0)Surprise(1)=−log(1−p)=−logp
nên sự ngạc nhiên khi quan sátXchính là một biến ngẫu nhiên với kỳ vọng
p⋅−logp+(1−p)⋅−log(1−p)
và đó là --- bất ngờ! --- entropy củaX! Vì vậy, entropy đượcmong đợi bất ngờ!
Bây giờ, câu hỏi này là về entropy tối đa . Tại sao mọi người muốn sử dụng phân phối entropy tối đa? Chà, chắc là vì họ muốn được ngạc nhiên tối đa! Tại sao mọi người muốn điều đó?
Một cách để xem xét nó là như sau: Bạn muốn tìm hiểu về một cái gì đó, và với mục tiêu đó, bạn thiết lập một số kinh nghiệm học tập (hoặc thử nghiệm ...). Nếu bạn đã biết tất cả mọi thứ về chủ đề này, bạn có thể luôn dự đoán hoàn hảo, vì vậy không bao giờ ngạc nhiên. Sau đó, bạn không bao giờ có được trải nghiệm mới, vì vậy đừng học bất cứ điều gì mới (nhưng bạn đã biết tất cả mọi thứ --- không có gì để học, vì vậy điều đó là ổn). Trong tình huống điển hình hơn mà bạn bối rối, không thể dự đoán hoàn hảo, có một cơ hội học tập! Điều này dẫn đến ý tưởng rằng chúng ta có thể đo lường "lượng học tập có thể" bằng sự ngạc nhiên dự kiến , đó là entropy. Vì vậy, tối đa hóa entropy không gì khác hơn là tối đa hóa cơ hội học tập. Nghe có vẻ như là một khái niệm hữu ích, có thể hữu ích trong việc thiết kế các thí nghiệm và những thứ như vậy.
Một ví dụ thi vị là nổi tiếng
Wenn einer eine reise macht, dann kann er là erzählen ...
Một ví dụ thực tế: Bạn muốn thiết kế một hệ thống cho các bài kiểm tra trực tuyến (có nghĩa là không phải ai cũng có được câu hỏi giống nhau, các câu hỏi được chọn một cách linh hoạt tùy thuộc vào câu trả lời trước, theo cách nào đó, được tối ưu hóa cho mỗi người).
Nếu bạn đưa ra những câu hỏi quá khó, để chúng không bao giờ thành thạo, bạn chẳng học được gì. Điều đó cho thấy bạn phải hạ mức độ khó khăn. Mức độ khó tối ưu là gì, nghĩa là mức độ khó tối đa hóa tỷ lệ học tập là gì? Đặt xác suất trả lời đúng là p . Chúng tôi muốn giá trị của p tối đa hóa entropy Bernoulli. Nhưng đó là p=0.5 . Vì vậy, bạn nhắm đến việc nêu các câu hỏi trong đó xác suất để có được câu trả lời đúng (từ người đó) là 0,5.
Sau đó, trường hợp của một liên tục biến ngẫu nhiên X . Làm thế nào chúng ta có thể ngạc nhiên bằng cách quan sát X ? Xác suất của bất kỳ kết quả cụ thể nào {X=x} là 0, định nghĩa −logp là vô ích. Nhưng chúng ta sẽ ngạc nhiên nếu xác suất quan sát thứ gì đó như x là nhỏ, nghĩa là, nếu giá trị hàm mật độ f(x) nhỏ (giả sử f là liên tục). Điều đó dẫn đến định nghĩa
Surprise(x)=−logf(x)
Với định nghĩa đó, điều ngạc nhiên mong đợi từ việc quan sát X là
E{−logf(X)}=−∫f(x)logf(x)dx
có nghĩa là, sự ngạc nhiên dự kiến từ quan sátX là entropy khác biệt củaX . Nó cũng có thể được coi là loglikabilities dự kiến.
Nhưng điều này thực sự không giống như trường hợp đầu tiên, sự kiện. Quá thấy điều đó, một ví dụ. Đặt biến ngẫu nhiên X đại diện cho chiều dài ném đá (nói trong một cuộc thi thể thao). Để đo chiều dài đó, chúng ta cần chọn một đơn vị độ dài, vì không có thang đo nội tại theo chiều dài, vì có xác suất. Chúng ta có thể đo bằng mm hoặc km, hoặc thường hơn, tính bằng mét. Nhưng định nghĩa của chúng tôi về bất ngờ, do đó bất ngờ được mong đợi, phụ thuộc vào đơn vị được chọn, do đó không có bất biến. Vì lý do đó, các giá trị của entropy vi sai không thể so sánh trực tiếp với cách mà entropy của Shannon. Nó vẫn có thể hữu ích, nếu một người nhớ vấn đề này.