Sách giáo khoa Các yếu tố của lý thuyết thông tin cho chúng ta một ví dụ:
Ví dụ: nếu chúng ta biết phân phối p thực của biến ngẫu nhiên, chúng ta có thể xây dựng mã với độ dài mô tả trung bình H (p). Thay vào đó, nếu chúng ta sử dụng mã cho phân phối q, chúng ta sẽ cần các bit H (p) + D (p || q) để mô tả biến ngẫu nhiên.
Để diễn giải câu lệnh trên, chúng ta có thể nói rằng nếu chúng ta thay đổi phân phối thông tin (từ q thành p), chúng ta cần trung bình thêm các bit D (p | | q) để mã hóa phân phối mới.
Sự minh họa
Hãy để tôi minh họa điều này bằng cách sử dụng một ứng dụng của nó trong xử lý ngôn ngữ tự nhiên.
Hãy xem xét rằng một nhóm lớn của người dân, dán nhãn B, là trung gian và mỗi người trong số họ được giao một nhiệm vụ để lựa chọn một danh từ từ turkey
, animal
và book
và truyền nó cho C. Có một tên chàng trai Một người có thể gửi cho mỗi người trong số họ một email để cung cấp cho họ một số gợi ý. Nếu không ai trong nhóm nhận được email, họ có thể nhướng mày và do dự một lúc xem xét C cần gì. Và xác suất của mỗi lựa chọn được chọn là 1/3. Phân phối thống nhất (nếu không, nó có thể liên quan đến sở thích riêng của họ và chúng tôi chỉ bỏ qua các trường hợp như vậy).
Nhưng nếu họ được cho một động từ, như baste
, 3/4 trong số họ có thể chọn turkey
và 3/16 chọn animal
và 1/16 chọn book
. Sau đó, trung bình có bao nhiêu thông tin trong các bit của các trung gian đã thu được một khi họ biết động từ? Nó là:
D(p(nouns|baste)||p(nouns))=∑x∈{turkey,animal,book}p(x|baste)log2p(x|baste)p(x)=34∗log23413+316∗log231613+116∗log211613=0.5709 bits
Nhưng nếu động từ đưa ra là read
gì? Chúng tôi có thể tưởng tượng rằng tất cả trong số họ sẽ chọn book
không do dự, sau đó mức tăng thông tin trung bình cho mỗi người hòa giải từ động từ read
là:
D(p(nouns|read)||p(nouns))=∑x∈{book}p(x|read)log2p(x|read)p(x)=1∗log2113=1.5849 bits
Chúng ta có thể thấy rằng động từ
read
có thể cung cấp cho các hòa giải viên nhiều thông tin hơn. Và đó là những gì entropy tương đối có thể đo lường được.
Hãy tiếp tục câu chuyện của chúng tôi. Nếu C nghi ngờ rằng danh từ đó có thể sai vì A nói với anh ta rằng anh ta có thể đã mắc lỗi bằng cách gửi động từ sai cho người hòa giải. Sau đó, bao nhiêu thông tin trong bit có thể là một mẩu tin xấu như vậy cung cấp cho C?
1) nếu động từ do A đưa ra là baste
:
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
2) nhưng nếu động từ là read
gì?
D(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
Vì C không bao giờ biết hai danh từ kia sẽ là gì và bất kỳ từ nào trong từ vựng đều có thể.
Chúng ta có thể thấy rằng sự phân kỳ KL là không đối xứng.
Tôi hy vọng tôi đúng, và nếu không xin vui lòng bình luận và giúp sửa chữa cho tôi. Cảm ơn trước.