Shannon Entropy 0,922, 3 giá trị riêng biệt


14

Đưa ra một chuỗi các giá trị , Shannon Entropy trong cơ sở nhật ký  là . Theo những gì tôi hiểu, trong cơ sở  , Shannon Entropy được làm tròn là số bit tối thiểu trong nhị phân để biểu diễn một trong các giá trị.MộtMộtMộtMộtMộtMộtMộtMộtBC20,9222

Lấy từ phần giới thiệu trên trang wikipedia này:

https://en.wikipedia.org/wiki/Entropy_%28inif_theory%29

Vì vậy, làm thế nào ba giá trị có thể được đại diện bởi một bit?  có thể là  ,  có thể là  ; nhưng làm thế nào bạn có thể đại diện cho  ?Một1B0C

Cảm ơn bạn trước.

Câu trả lời:


16

Entropy mà bạn đã tính không thực sự dành cho chuỗi cụ thể mà thay vào đó là một nguồn biểu tượng ngẫu nhiên tạo với xác suất  và và  C với xác suất  \ tfrac1 {10} mỗi , không có mối tương quan giữa các biểu tượng liên tiếp. Entropy được tính toán cho phân phối này, trung bình 0,922 có nghĩa là trung bình bạn không thể biểu diễn các chuỗi được tạo từ phân phối này bằng cách sử dụng ít hơn 0,922 bit cho mỗi ký tự.Mộtsố 810BC1100,9220,922

Có thể khá khó để phát triển một mã sẽ đạt được tỷ lệ này. * Ví dụ, mã hóa Huffman sẽ phân bổ các mã , và  cho , và  , tương ứng với trung bình  bit cho mỗi ký tự. Điều đó khá xa so với entropy, mặc dù vẫn tốt hơn nhiều so với mã hóa hai bit trên mỗi ký tự. Bất kỳ nỗ lực nào để mã hóa tốt hơn có thể sẽ khai thác thực tế rằng thậm chí một chuỗi mười liên tiếp có nhiều khả năng (xác suất ) so với một đơn  .01011MộtBC1.2A0.107B


* Hóa ra không khó để đến gần như bạn muốn - xem các câu trả lời khác!


18

Dưới đây là một mã hóa cụ thể có thể đại diện cho mỗi ký hiệu trung bình dưới 1 bit:

Đầu tiên, chia chuỗi đầu vào thành các cặp ký tự liên tiếp (ví dụ AAAAAAAABC trở thành AA | AA | AA | AA | BC). Sau đó mã hóa AA là 0, AB là 100, AC là 101, BA là 110, CA là 1110, BB là 111100, BC là 111101, CB là 111110, CC là 111111. Tôi chưa nói điều gì xảy ra nếu có số lẻ số lượng biểu tượng, nhưng bạn chỉ có thể mã hóa biểu tượng cuối cùng bằng cách sử dụng một số mã hóa tùy ý, điều đó không thực sự quan trọng khi đầu vào dài.

Đây là mã Huffman để phân phối các cặp ký hiệu độc lập và tương ứng với việc chọn trong câu trả lời của Yuval. Lớn hơn sẽ dẫn đến các mã thậm chí tốt hơn (tiếp cận entropy Shannon trong giới hạn, như ông đã đề cập).n= =2n

Số bit trung bình trên mỗi cặp ký hiệu cho mã hóa trên là tức là bit cho mỗi ký hiệu, không quá xa so với entropy Shannon thực sự cho một mã hóa đơn giản như vậy.

số 810số 8101+3số 8101103+110số 8104+41101106= =1,92
1,92/2= =0,96


13

D{Một,B,C}X~DPr[X= =Một]= =4/5Pr[X= =B]= =Pr[X= =C]= =1/10

nCn:{Một,B,C}n{0,1}*

limnEX1,Giáo dục,Xn~D[Cn(X1,Giáo dục,Xn)]n= =H(D).

DH(D)0,922Một

Mộtsố 8BC

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.