Wow, câu hỏi tuyệt vời! Hãy để tôi cố gắng giải thích độ phân giải. Nó sẽ thực hiện ba bước riêng biệt.
Điều đầu tiên cần lưu ý là entropy được tập trung nhiều hơn vào số bit trung bình cần thiết cho mỗi lần rút, chứ không phải số bit tối đa cần thiết.
Với quy trình lấy mẫu của bạn, số bit ngẫu nhiên tối đa cần thiết cho mỗi lần rút là bit, nhưng số bit trung bình cần là 2 bit (trung bình của phân phối hình học với ) - điều này là do có một Xác suất mà bạn chỉ cần 1 bit (nếu bit đầu tiên biến thành 1), xác suất bạn chỉ cần 2 bit (nếu hai bit đầu tiên biến thành 01), xác suất bạn chỉ cần 3 bit (nếu ba bit đầu tiên hóa ra là 001), v.v.Np=1/21/21/41/8
Điều thứ hai cần lưu ý là entropy không thực sự nắm bắt được số bit trung bình cần thiết cho một lần rút. Thay vào đó, entropy thu được số bit được khấu hao cần thiết để lấy mẫu iid rút ra từ phân phối này. Giả sử chúng ta cần bit để lấy mẫu rút ra; thì entropy là giới hạn của là .mf(m)mf(m)/mm→∞
Điều thứ ba cần lưu ý là, với bản phân phối này, bạn có thể lấy mẫu iid rút ra với ít bit hơn mức cần thiết để lặp lại mẫu một lần rút. Giả sử bạn đã ngây thơ quyết định vẽ một mẫu (lấy trung bình 2 bit ngẫu nhiên), sau đó vẽ một mẫu khác (trung bình sử dụng thêm 2 bit ngẫu nhiên), v.v., cho đến khi bạn lặp lại lần này. Điều đó sẽ yêu cầu trung bình khoảng bit ngẫu nhiên.mm2m
Nhưng hóa ra có một cách để lấy mẫu từ rút ra bằng cách sử dụng ít hơn bit. Thật khó tin, nhưng đó là sự thật!m2m
Hãy để tôi cung cấp cho bạn trực giác. Giả sử bạn đã viết ra kết quả lấy mẫu rút ra, trong đó thực sự lớn. Sau đó, kết quả có thể được chỉ định là một chuỗi -bit. Đây chuỗi bit sẽ chủ yếu là 0, với một vài 1 trong nó: đặc biệt, trung bình nó sẽ có khoảng 1 của (có thể nhiều hơn hoặc ít hơn thế, nhưng nếu là đủ lớn, thường là số sẽ gần với số đó). Độ dài của các khoảng trống giữa 1 là ngẫu nhiên, nhưng thường sẽ ở đâu đó một cách mơ hồ trong vùng lân cận (có thể dễ dàng bằng một nửa hoặc gấp đôi hoặc thậm chí nhiều hơn, nhưng theo thứ tự cường độ đó). Tất nhiên, thay vì viết ra toàn bộmmmmm/2Nm2NmN m / 2 N m N / 2 N m mchuỗi -bit, chúng ta có thể viết nó ngắn gọn hơn bằng cách viết ra một danh sách các độ dài của các khoảng trống - mang tất cả thông tin giống nhau, ở định dạng nén hơn. Bao nhiêu gọn gàng hơn? Chà, chúng ta thường sẽ cần khoảng bit để biểu thị độ dài của mỗi khoảng trống; và sẽ có khoảng khoảng trống; vì vậy chúng ta sẽ cần tổng cộng khoảng bit (có thể nhiều hơn một chút, có thể ít hơn một chút, nhưng nếu đủ lớn, nó thường sẽ gần với điều đó). Nó ngắn hơn rất nhiều so với chuỗi -bit.Nm/2NmN/2Nmm
Và nếu có cách viết chuỗi này ngắn gọn, có lẽ sẽ không quá ngạc nhiên nếu điều đó có nghĩa là có cách tạo chuỗi với một số bit ngẫu nhiên có thể so sánh với độ dài của chuỗi. Cụ thể, bạn ngẫu nhiên tạo độ dài của mỗi khoảng cách; đây là lấy mẫu từ một phân phối hình học với và có thể được thực hiện với trung bình khoảng bit ngẫu nhiên (không phải ). Bạn sẽ cần khoảng iid rút ra từ phân phối hình học này, vì vậy bạn sẽ cần tổng cộng khoảng bit ngẫu nhiên. (Nó có thể là một hệ số không đổi nhỏ lớn hơn, nhưng không lớn hơn nhiều.) Và, lưu ý rằng đây là nhỏ hơn nhiều so với bit.p=1/2N∼N2Nm/2N∼Nm/2N2m
Vì vậy, chúng tôi có thể lấy mẫu iid rút ra từ bản phân phối của bạn, chỉ sử dụng các bit ngẫu nhiên (khoảng). Hãy nhớ lại rằng entropy là . Vì vậy, phương tiện này mà bạn nên mong đợi các entropy là (khoảng) . Điều đó hơi khác một chút, bởi vì tính toán trên còn sơ sài và thô thiển - nhưng hy vọng nó mang đến cho bạn một số trực giác về lý do tại sao entropy là gì và tại sao mọi thứ đều phù hợp và hợp lý.mf(m)∼Nm/2Nlimm→∞f(m)/mN/2N