Entropy theo kinh nghiệm là gì?


19

Trong định nghĩa của các tập hợp điển hình chung (trong "Các yếu tố của lý thuyết thông tin", ch. 7.6, trang 195), chúng tôi sử dụng

np(xn)= n i = 1 p(xi)

-1nđăng nhậpp(xn)
entropy theo kinh nghiệm của một hệ quả với . Tôi chưa bao giờ đi qua thuật ngữ này trước đây. Nó không được định nghĩa rõ ràng ở bất cứ đâu theo chỉ số của cuốn sách.np(xn)= =ΠTôi= =1np(xTôi)

Câu hỏi của tôi về cơ bản là: Tại sao entropy theo kinh nghiệm không trong đó là phân phối theo kinh nghiệm?p ( x )-Σxp^(x)đăng nhập(p^(x))p^(x)

Sự khác biệt và điểm tương đồng thú vị nhất giữa hai công thức này là gì? (về mặt tài sản họ chia sẻ / không chia sẻ).


Không phải hai biểu thức đại số bằng nhau sao?
whuber

1
@whuber: Không, chúng là số lượng khác nhau, với mục đích khác nhau, tôi tin. Lưu ý rằng lần đầu tiên sử dụng biện pháp thực sự được biết là một tiên nghiệm. Thứ hai thì không. p
Đức hồng y

3
Cái trước liên quan đến sự tích lũy của entropy theo thời gian và làm thế nào nó so sánh với entropy thực sự của hệ thống. SLLN và CLT nói với mọi người rất nhiều về cách hành xử của nó. Thứ hai liên quan đến việc ước tính entropy từ dữ liệu và một số thuộc tính của nó cũng có thể thu được thông qua hai công cụ tương tự vừa được đề cập. Nhưng, trong khi cái đầu tiên không thiên vị, cái thứ hai không thuộc . Tôi có thể điền vào một số chi tiết nếu nó sẽ hữu ích. p
Đức hồng y

1
@cardinal: Nếu bạn cung cấp nhận xét trên dưới dạng câu trả lời (cũng có thể giải thích SLLN và CLT là gì? - Tôi không biết những điều này) Tôi rất vui lòng upvote ...
blubb

Ok, tôi sẽ cố gắng đăng thêm sau. Trong khi đó, SLLN = "Định luật mạnh về số lượng lớn" và CLT = "Định lý giới hạn trung tâm". Đây là những chữ viết tắt khá chuẩn mà bạn có thể sẽ gặp lại. Chúc mừng. :)
Đức hồng y

Câu trả lời:


16

Nếu dữ liệu là , nghĩa là, hậu quả từ không gian mẫu , xác suất điểm thực nghiệm là cho . Ở đây là một nếu và khác 0. Nghĩa là, là tần số tương đối của trong chuỗi được quan sát. Các entropy của phân bố xác suất được đưa ra bởi xác suất điểm thực nghiệm là n X p ( x ) = 1xn= =x1Giáo dụcxnnXxXδx(xi)xi=x p (x)xH( p )=-Σx X p (x)log p (x)=-x X 1

p^(x)=1n|{i|xTôi= =x}|= =1nΣTôi= =1nδx(xTôi)
xXδx(xTôi)xTôi= =xp^(x)xΣx X δx(xi)log p (x)=log p (xi). H( p )=-1
H(p^)= =-ΣxXp^(x)đăng nhậpp^(x)= =-ΣxX1nΣTôi= =1nδx(xTôi)đăng nhậpp^(x)= =-1nΣTôi= =1nđăng nhậpp^(xTôi).
Nhận dạng sau theo sau bằng cách hoán đổi hai khoản tiền và lưu ý rằng Từ đó, chúng ta thấy rằng với và sử dụng thuật ngữ từ câu hỏi này là entropy theo kinh nghiệm của phân phối xác suất theo kinh nghiệm . Như được chỉ ra bởi @cardinal trong một nhận xét,
ΣxXδx(xTôi)đăng nhậpp^(x)= =đăng nhậpp^(xTôi).
p (xn)=Π n i = 1 p (xi)-1
H(p^)= =-1nđăng nhậpp^(xn)
p^(xn)= =ΠTôi= =1np^(xTôi)p-1nđăng nhậpp(xn)là entropy theo kinh nghiệm của một phân phối xác suất nhất định với xác suất điểm .p

3
(+1) Điều này cung cấp một minh họa đẹp về những gì Cover và Thomas gọi là "nhân vật tự giới thiệu kỳ lạ" của entropy. Tuy nhiên, tôi không chắc câu trả lời thực sự giải quyết (trực tiếp) mối quan tâm rõ ràng của OP. :)
Đức hồng y

@cardinal, tôi biết, và câu trả lời chỉ là một nhận xét dài để đưa ra quan điểm đặc biệt này. Tôi không muốn lặp lại quan điểm của bạn.
NRH

1
Bạn không nên cảm thấy tồi tệ hay ngần ngại khi đăng câu trả lời của riêng mình, kể cả mở rộng về nhận xét của tôi hoặc của người khác. Tôi đặc biệt chậm và tệ về việc đăng câu trả lời, và sẽ không bao giờ vi phạm nếu bạn hoặc người khác đăng câu trả lời kết hợp các khía cạnh của những điều mà trước đây tôi có thể đã nhận xét ngắn gọn. Hoàn toàn ngược lại, trên thực tế. Chúc mừng.
Đức hồng y

7

Entropy được xác định cho phân phối xác suất. Khi bạn không có, nhưng chỉ có dữ liệu và cắm vào một công cụ ước tính ngây thơ về phân phối xác suất, bạn sẽ có được entropy theo kinh nghiệm. Điều này là dễ nhất cho các phân phối rời rạc (đa phương thức), như thể hiện trong câu trả lời khác, nhưng cũng có thể được thực hiện cho các phân phối khác bằng cách đóng gói, v.v.

Một vấn đề với entropy theo kinh nghiệm là nó bị sai lệch cho các mẫu nhỏ. Ước tính ngây thơ của phân phối xác suất cho thấy sự thay đổi thêm do nhiễu mẫu. Tất nhiên người ta có thể sử dụng một công cụ ước tính tốt hơn, ví dụ, một ưu tiên phù hợp trước cho các tham số đa phương thức, nhưng để nó thực sự không thiên vị là không dễ dàng.

Những điều trên cũng áp dụng cho các bản phân phối có điều kiện. Ngoài ra, mọi thứ đều liên quan đến binning (hoặc kernelization), vì vậy bạn thực sự có một loại entropy khác biệt.


3
Chúng ta nên cẩn thận với những gì chúng ta đang đề cập đến như là entropy theo kinh nghiệm ở đây. Lưu ý rằng công cụ ước tính trình cắm luôn luôn bị sai lệch thấp cho tất cả các kích thước mẫu, mặc dù độ lệch sẽ giảm khi kích thước mẫu tăng. Không chỉ khó để có được các ước tính không thiên vị cho entropy, mà là không thể trong trường hợp chung. Đã có nghiên cứu khá căng thẳng trong lĩnh vực này trong nhiều năm qua, đặc biệt là trong tài liệu khoa học thần kinh. Trên thực tế, có rất nhiều kết quả tiêu cực.
Đức hồng y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.