Khái niệm tập điển hình


14

Tôi nghĩ rằng khái niệm về bộ điển hình khá trực quan: một chuỗi độ dài n sẽ thuộc về bộ điển hình nếu xác suất của chuỗi xuất hiện cao. Vì vậy, bất kỳ chuỗi nào có khả năng sẽ có trong . (Tôi đang tránh định nghĩa chính thức liên quan đến entropy vì tôi đang cố gắng hiểu nó một cách định tính.)Aϵ(n)Aϵ(n)

Tuy nhiên, tôi đã đọc rằng, nói chung, trình tự rất có thể không thuộc về tập điển hình. Điều này làm tôi bối rối thời gian lớn.

Có một định nghĩa trực quan của bộ điển hình? Hay nó chỉ là một công cụ toán học không liên quan nhiều đến lẽ thường?

Câu trả lời:


11

Tôi biết bạn đã yêu cầu một lời giải thích rõ ràng và bỏ qua định nghĩa chính thức, nhưng tôi nghĩ chúng khá liên quan, vì vậy hãy để tôi nhớ lại định nghĩa của tập điển hình:

X1,X2,...iidbiến ngẫu nhiên p(x) thì điển hình bộAϵ(n) đối vớip(x) là tập hợp các chuỗi(x1,x2,...,xn)χn với bất động sản

(1)2n(H(X)+ϵ)p(x1,x2,...,xn)2n(H(X)ϵ)
này có nghĩa rằng đối với một cố địnhϵ, tập điển hình bao gồm tất cả các chuỗi có xác suất làgầnđến2nH(X). Vì vậy, để một chuỗi thuộc về tập hợp điển hình, nó chỉ cần có xác suất gần với2nH(X) , thường thì không. Để hiểu tại sao, hãy để tôi viết lại phương trình 1 bằng cách áp dụnglog2 trên nó.

(2)H(X)ϵ1nlog2(1p(x1,x2,...,xn))H(X)+ϵ

Bây giờ định nghĩa tập hợp điển hình liên quan trực tiếp hơn đến khái niệm entropy, hoặc nêu một cách khác, thông tin trung bình của biến ngẫu nhiên. Thuật ngữ giữa có thể được coi là entropy mẫu của chuỗi, do đó, tập hợp điển hình được tạo bởi tất cả các chuỗi cung cấp cho chúng ta một lượng thông tin gần với thông tin trung bình của biến ngẫu nhiênX . Trình tự có thể xảy ra nhất thường cung cấp cho chúng tôi ít thông tin hơn mức trung bình. Hãy nhớ rằng, xác suất kết quả càng thấp thì thông tin cung cấp cho chúng ta sẽ càng cao. Để hiểu lý do tại sao tôi cho một ví dụ:

Giả sử bạn sống trong một thành phố có thời tiết rất nắng và ấm áp, từ 24 ° C đến 26 ° C. Bạn có thể xem báo cáo thời tiết mỗi sáng nhưng bạn sẽ không quan tâm nhiều đến nó, ý tôi là, trời luôn nắng và ấm áp. Nhưng nếu một ngày nào đó, người đàn ông / phụ nữ thời tiết nói với bạn rằng hôm nay trời sẽ mưa và lạnh, đó là một sự thay đổi trong trò chơi. Bạn sẽ phải sử dụng một số quần áo khác nhau và lấy một chiếc ô và làm những việc khác mà bạn thường không làm, vì vậy người đàn ông thời tiết đã cung cấp cho bạn một thông tin quan trọng thực sự.

Tóm lại, định nghĩa trực quan của tập hợp điển hình là nó bao gồm các chuỗi cung cấp cho chúng ta một lượng thông tin gần với dự kiến ​​của nguồn (biến ngẫu nhiên).


1
... hay đúng hơn $$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$...
Cbhihe

OK, nhưng mục đích của bộ điển hình được xác định theo cách này là gì? Trước đây tôi nghĩ rằng chúng ta đã tạo ra một khái niệm về tập hợp điển hình để có một trực giác mà tập hợp con NHỎ của các chuỗi chúng ta cần thực hiện để đảm bảo chúng ta "bao phủ" (1 - \ eps)% trường hợp. Theo cách này, lấy chuỗi có thể xảy ra nhất là một lựa chọn rõ ràng. Tôi đang thiếu gì?
tomwesolowski

10

Câu trả lời của Diegobatt làm tốt công việc giải thích bằng trực giác bộ tiêu biểu là gì. Câu trả lời này sẽ giải quyết câu hỏi khác của OP, được lặp lại bởi @tomwesolowski: tại sao bạn lại định nghĩa tập hợp điển hình theo cách có thể loại trừ các yếu tố có thể xảy ra nhất?

Câu trả lời ngắn gọn là bộ điển hình chủ yếu là một công cụ toán học. Nó được định nghĩa để giúp chứng minh điều gì đó, và định nghĩa này là cách thuận tiện nhất để chứng minh. Đó là một ví dụ tốt về cách nhu cầu lý thuyết đôi khi có thể vượt qua các sở thích trực quan trong toán học.

Tập hợp điển hình được xác định bởi cha đẻ của lý thuyết thông tin , Claude Shannon . Ông muốn xác định mức độ hiệu quả của một người có thể mã hóa một luồng các ký hiệu từ một bảng chữ cái cố định, giả sử mỗi ký hiệu là một mẫu ngẫu nhiên iid từ một số phân phối. Những hiểu biết quan trọng của ông là:

  1. Có một tập hợp các chuỗi "điển hình" tương đối dễ nhận biết, thường xuất hiện không tương xứng thường xuyên trong luồng.
  2. Việc gán "tập hợp điển hình" này cho các chuỗi mã hóa ngắn nhất mang lại một mã hóa hiệu quả tối ưu (không có triệu chứng, khi đầu ra của luồng phát triển dài tùy ý).

Tập hợp điển hình mà Shannon phát hiện được bao gồm chính xác các chuỗi có thông tin tự , hoặc "đáng ngạc nhiên", giống như thông tin tự dự kiến , trung bình, cho phân phối nguồn của luồng. Các trình tự như vậy là "điển hình" theo nghĩa thông tin của chúng là trung bình, nhưng định nghĩa này hoàn toàn loại trừ các trình tự có thông tin ít hơn đáng kể so với trung bình. Những trình tự ít thông tin này cũng là những trình tự có thể xảy ra nhất.

Như OP lưu ý, điều này không hấp dẫn bằng trực giác! Trên mặt của nó, tập hợp điển hình có vẻ như nó sẽ chứa tất cả các chuỗi có thể xảy ra nhất lên đến một số ngưỡng. Điều đó sẽ thể hiện tốt hơn những gì thường thấy trong luồng.

Nhưng Shannon không muốn tập hợp điển hình "điển hình" nhất có thể; anh ấy muốn một cái giúp dễ dàng chứng minh kết quả mà anh ta muốn chứng minh. Bộ điển hình được xác định bởi Shannon được đảm bảo tồn tại, nó được đảm bảo nhỏ và được đảm bảo nhỏ như bất kỳ bộ nào khác mà bạn có thể đề xuất, như câu trả lời này chỉ ra. Thêm các yếu tố có khả năng nhất làm cho tập hợp nhiều khả năng, điều này là tốt, nhưng nó cũng làm cho tập hợp lớn hơn, điều đó là xấu. Nếu tất cả những gì bạn quan tâm là làm cho bằng chứng của bạn được thực hiện, tại sao phải sửa những gì không bị hỏng?

Nếu bạn có các mục tiêu khác với Shannon, khái niệm điển hình ưa thích của bạn cũng có thể khác. Ví dụ, trong mã hóa Huffman , các ký hiệu có thể xảy ra nhất (hoặc các chuỗi ký hiệu) có được các mã ngắn nhất. Theo một nghĩa kỹ thuật nhất định, mã hóa Huffman là giải pháp tối ưu cho vấn đề ban đầu của Shannon, và nó nắm bắt tốt hơn trực giác của chúng ta về tính điển hình. Mặt khác, định nghĩa về tính điển hình của Shannon thuận tiện hơn cho việc chứng minh mọi thứ.


1
Lý luận tuyệt vời, và danh tiếng về một công việc được thực hiện tốt giải quyết khoảng cách giữa trực giác và định nghĩa. Tôi muốn nói rằng sự khác biệt này xảy ra do sự thiếu hụt ngôn ngữ từ cuộc sống hàng ngày, nơi điển hìnhtrung bình thường có nghĩa giống nhau, nhưng về mặt thống kê, điển hình (theo nghĩa xác suất, nghĩa là chế độ) không nhất thiết giống như mức trung bình , tức là giá trị mong đợi.
Emil

H(x)εH(x)+ε

@Emil, tôi cho rằng tác giả đã nói theo cách này, bởi vì tất cả chúng ta đều đồng ý rằng các chuỗi có nhiều thông tin hơn (ít khả năng hơn) không nên được chứa trong tập điển hình.
tomwesolowski

1

Ý tưởng về một bộ điển hình hoàn toàn coi các chuỗi kết quả là nhiều phần, tức là nó giả sử bạn chỉ quan tâm đến biểu đồ của mỗi chuỗi, ví dụ: bạn coi tất cả 10 đồng xu tung chuỗi với 7 đầu và 3 đuôi là tương đương.

p(H)=.9

Kết quả quan trọng là đối với các chuỗi đủ dài, hầu hết các chuỗi được lấy mẫu sẽ tùy ý gần với tần số dự kiến, nghĩa là phân phối trở nên cực kỳ cao khi độ dài của chuỗi được xem xét tăng lên.

105P(H)=.9104+/300 đuôi 99% thời gian kể từ khi độ lệch chuẩn trên số lượng đuôi trong một chuỗi là khoảng 100. xác suất của tất cả các đầu là không đáng kể mặc dù đó là chuỗi cụ thể có thể xảy ra nhất.

Bộ tiêu biểu là một phiên bản thông tin xác định hơn về mặt lý thuyết của ý tưởng này.


0

Theo định lý 6.3 trong các ghi chú bài giảng này, không có vấn đề gì nếu chúng ta tập hợp các chuỗi có xác suất cao nhất hoặc những người có xác suất gần với2-nH(X) (từ bộ điển hình) chúng ta phải lấy khoảng 2nHđể đảm bảo rằng tập hợp con được chọn chứa chuỗi ngẫu nhiên có xác suất cao. Chúng ta thường lấy các phần tử thiết lập điển hình, bởi vì chúng ta có thể ràng buộc kích thước của nó dễ dàng hơn.


1
Bạn có thể giải thích làm thế nào điều này giải quyết yêu cầu "định nghĩa trực quan của tập điển hình"?
whuber

Tôi không chắc, nhưng nó có nghĩa là để giải quyết "Tuy nhiên, tôi đã đọc rằng, nói chung, trình tự rất có thể không thuộc về tập điển hình. Điều này làm tôi bối rối thời gian lớn." một phần của câu hỏi :)
tomwesolowski
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.