Entropy nói gì với chúng ta?


32

Tôi đang đọc về entropy và đang gặp khó khăn trong việc khái niệm ý nghĩa của nó trong trường hợp liên tục. Trang wiki nêu rõ như sau:

Phân phối xác suất của các sự kiện, cùng với lượng thông tin của mọi sự kiện, tạo thành một biến ngẫu nhiên có giá trị dự kiến ​​là lượng thông tin trung bình hoặc entropy được tạo bởi phân phối này.

Vì vậy, nếu tôi tính toán entropy liên quan đến phân phối xác suất liên tục, điều đó thực sự cho tôi biết điều gì? Họ đưa ra một ví dụ về việc lật đồng xu, vì vậy trường hợp rời rạc, nhưng nếu có một cách trực quan để giải thích thông qua một ví dụ như thế trong trường hợp liên tục, điều đó sẽ rất tuyệt!

Nếu nó giúp, định nghĩa của entropy cho một biến ngẫu nhiên liên tục như sau:X

H(X)=P(x)logbP(x)dx
trong đó là hàm phân phối xác suất.P(x)

Để thử và làm cho điều này cụ thể hơn, hãy xem xét trường hợp của , sau đó, theo Wikipedia , entropy làXGamma(α,β)

H(X)=E[ln(P(X))]=E[αln(β)+ln(Γ(α))+ln(Γ(α))(α1)ln(X)+βX]=αln(β)+ln(Γ(α))+(1α)(ddαln(Γ(α)))

Và vì vậy, bây giờ chúng tôi đã tính toán entropy cho phân phối liên tục (phân phối Gamma) và vì vậy nếu bây giờ tôi đánh giá biểu thức đó, , đã cho và , số lượng đó thực sự cho tôi biết điều gì? H(X)αβ


5
(+1) Câu trích dẫn đó đề cập đến một đoạn thực sự đáng tiếc. Theo một cách khó khăn và mờ nhạt, để mô tả và giải thích định nghĩa toán học của entropy. Định nghĩa đó là . Nó có thể được xem như là sự mong đợi của nơi là pdf của một biến ngẫu nhiên . Nó đang cố gắng mô tả là "lượng thông tin" được liên kết với số . f(x)log(f(x))dxlog(f(X))fXlog(f(x))x
whuber

5
Điều đáng để hỏi, bởi vì có một vấn đề kỹ thuật quan trọng nhưng quan trọng: phiên bản entropy liên tục không hoàn toàn được hưởng các tính chất giống như phiên bản rời rạc (vốn có sự giao thoa trực quan tự nhiên về mặt thông tin). @Tim AFAIK, chủ đề về Toán học chỉ giải quyết trường hợp riêng biệt .
whuber

1
@RustyStatistician nghĩ về như cho bạn biết kết quả x đáng ngạc nhiên như thế nào. Sau đó, bạn đang tính toán bất ngờ. log(f(x))
Adrian

3
Vấn đề kỹ thuật @whuber tham khảo, điều này có thể được quan tâm.
Sean Easter

3
Trong trường hợp bạn quan tâm đến các kỹ thuật: Entropy dựa trên một số liệu giả gọi là phân kỳ Kullback-Leibler được sử dụng để mô tả khoảng cách giữa các sự kiện trong thước đo tương ứng của chúng, hãy xem dự án gốc ( xem dự án) và broudbreaking) giấy của Kullback và Leibler. Khái niệm này cũng xuất hiện trở lại trong các tiêu chí lựa chọn mô hình như AIC và BIC.
Jeremias K

Câu trả lời:


31

Entropy cho bạn biết có bao nhiêu sự không chắc chắn trong hệ thống. Giả sử bạn đang tìm một con mèo và bạn biết rằng nó ở đâu đó giữa nhà bạn và hàng xóm, cách đó 1 dặm. Con bạn nói với bạn rằng xác suất một con mèo ở khoảng cách từ nhà bạn được mô tả tốt nhất bằng phân phối beta . Vì vậy, một con mèo có thể ở bất cứ đâu trong khoảng từ 0 đến 1, nhưng nhiều khả năng là ở giữa, tức là .x f(x;2,2)xmax=1/2

nhập mô tả hình ảnh ở đây

Hãy cắm phân phối beta vào phương trình của bạn, sau đó bạn nhận được .H=0.125

Tiếp theo, bạn hỏi vợ và cô ấy nói với bạn rằng phân phối tốt nhất để mô tả kiến ​​thức của cô ấy về con mèo của bạn là phân phối đồng đều. Nếu bạn cắm nó vào phương trình entropy của bạn, bạn nhận được .H=0

Cả hai thống nhất và beta phân phối để cho mèo được bất cứ nơi nào giữa 0 và 1 dặm từ ngôi nhà của bạn, nhưng có sự không chắc chắn ở những bộ đồng phục, bởi vì vợ của bạn có thực sự không có đầu mối, nơi con mèo là lẩn trốn, trong khi trẻ em có một số ý tưởng , họ nghĩ đó là chi tiết có khả năng là một nơi nào đó ở giữa. Đó là lý do tại sao entropy của Beta thấp hơn Đồng phục.

nhập mô tả hình ảnh ở đây

Bạn có thể thử các bản phân phối khác, có thể hàng xóm của bạn nói với bạn rằng con mèo thích ở gần một trong hai ngôi nhà, vì vậy bản phân phối beta của nó là với . của nó phải thấp hơn đồng phục một lần nữa, bởi vì bạn có một số ý tưởng về nơi để tìm một con mèo. Đoán xem entropy thông tin của hàng xóm của bạn cao hơn hoặc thấp hơn con bạn? Tôi đặt cược vào trẻ em bất cứ ngày nào về những vấn đề này.α=β=1/2H

nhập mô tả hình ảnh ở đây

CẬP NHẬT:

Cái này hoạt động ra sao? Một cách để nghĩ về điều này là bắt đầu với một phân phối thống nhất. Nếu bạn đồng ý rằng đó là điều không chắc chắn nhất, thì hãy nghĩ đến việc làm phiền nó. Hãy xem xét trường hợp riêng biệt cho đơn giản. Lấy từ một điểm và thêm nó vào một điểm khác như sau: Δp

pi=pΔp
pj=p+Δp

Bây giờ, hãy xem cách thay đổi entropy: Điều này có nghĩa là bất kỳ sự xáo trộn nào từ phân phối đồng đều đều làm giảm entropy (độ không đảm bảo). Để hiển thị tương tự trong trường hợp liên tục, về nguyên tắc, tôi phải sử dụng phép tính các biến thể hoặc thứ gì đó dọc theo dòng này, nhưng về nguyên tắc, bạn sẽ nhận được loại kết quả tương tự.

HH=pilnpipiln(piΔp)+pjlnpjpjln(pj+Δp)
=plnppln[p(1Δp/p)]+plnppln[p(1+Δp/p)]
=ln(1Δp/p)ln(1+Δp/p)>0

CẬP NHẬT 2: Giá trị trung bình của biến ngẫu nhiên thống nhất là một biến ngẫu nhiên và đó là từ phân phối Bates . Từ CLT, chúng ta biết rằng phương sai của biến ngẫu nhiên mới này co lại thành . Vì vậy, sự không chắc chắn về vị trí của nó phải giảm đi khi tăng : chúng ta càng ngày càng chắc chắn rằng một con mèo ở giữa. Biểu đồ tiếp theo và mã MATLAB tiếp theo của tôi cho thấy cách entropy giảm từ 0 cho (phân phối đồng đều) xuống . Tôi đang sử dụng thư viện phân phối31 ở đây.nnnn=1n=13

nhập mô tả hình ảnh ở đây

x = 0:0.01:1;
for k=1:5
    i = 1 + (k-1)*3;
    idx(k) = i;
    f = @(x)bates_pdf(x,i);
    funb=@(x)f(x).*log(f(x));
    fun = @(x)arrayfun(funb,x);
    h(k) = -integral(fun,0,1);
    subplot(1,5+1,k)

    plot(x,arrayfun(f,x))
    title(['Bates(x,' num2str(i) ')'])
    ylim([0 6])
end

subplot(1,5+1,5+1)
plot(idx,h)
title 'Entropy'

1
(+1) Tôi sẽ chờ xem những diễn giải của người khác nhưng tôi thực sự thích cách giải thích này. Vì vậy, nó có vẻ như có thể sử dụng entropy như một thước đo về sự chắc chắn bạn cần so sánh nó với các bản phân phối khác? Tức là, con số tự nó không cho bạn biết nhiều?
RustyStatistician 8/2/2016

1
@RustyStatistician, tôi sẽ không nói giá trị tuyệt đối của nó là hoàn toàn vô nghĩa. Nhưng vâng, nó hữu ích nhất khi được sử dụng để so sánh các trạng thái của hệ thống. Cách dễ dàng để nội tâm hóa entropy là nghĩ về nó như là thước đo của sự không chắc chắn
Aksakal

Vấn đề với câu trả lời này là thuật ngữ "không chắc chắn" không được xác định.
kjetil b halvorsen

1
thuật ngữ này không chắc chắn
Aksakal

Điều này là rất tốt đẹp.
Astrid

1

Tôi muốn thêm một câu trả lời thẳng thắn cho câu hỏi này:

số lượng đó thực sự cho tôi biết những gì?

Thật trực quan để minh họa điều đó trong một kịch bản riêng biệt. Giả sử rằng bạn ném một đồng xu thiên vị nặng nề, nói rằng xác suất nhìn thấy một cái đầu trên mỗi lần lật là 0,99. Mỗi lần lật thực tế cho bạn biết rất ít thông tin vì bạn gần như đã biết rằng nó sẽ đứng đầu. Nhưng khi nói đến một đồng tiền công bằng hơn, bạn sẽ không có bất kỳ ý tưởng nào để mong đợi, sau đó mỗi lần lật sẽ cho bạn biết nhiều thông tin hơn bất kỳ đồng xu thiên vị nào. Số lượng thông tin thu được bằng cách quan sát một lần tung được đánh đồng với .log1p(x)

Số lượng của entropy cho chúng ta biết là thông tin mà mỗi lần lật thực tế trên trung bình (có trọng số) có thể truyền đạt: . Đồng xu càng công bằng thì entropy càng lớn và một đồng tiền hoàn toàn công bằng sẽ được cung cấp thông tin tối đa.Elog1p(x)=p(x)log1p(x)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.