Tôi xin lỗi trước về độ dài của bài đăng này: với một chút lo lắng rằng tôi đã để nó ở nơi công cộng, bởi vì nó cần một chút thời gian và sự chú ý để đọc qua và chắc chắn có lỗi đánh máy và lỗi lưu trữ. Nhưng ở đây, nó dành cho những người quan tâm đến chủ đề hấp dẫn này, với hy vọng rằng nó sẽ khuyến khích bạn xác định một hoặc nhiều trong số nhiều phần của CLT để giải thích thêm về phản hồi của chính bạn.
Hầu hết các nỗ lực "giải thích" CLT là hình minh họa hoặc chỉ là sự phục hồi khẳng định nó là sự thật. Một lời giải thích thực sự xuyên thấu, chính xác sẽ phải giải thích rất nhiều điều.
Trước khi xem xét điều này hơn nữa, hãy rõ ràng về những gì CLT nói. Như bạn đã biết, có những phiên bản khác nhau về tính tổng quát của chúng. Bối cảnh chung là một chuỗi các biến ngẫu nhiên, là một số loại hàm nhất định trên một không gian xác suất chung. Đối với các giải thích trực quan giữ chặt chẽ, tôi thấy thật hữu ích khi nghĩ về một không gian xác suất như một hộp với các đối tượng có thể phân biệt. Không quan trọng những vật thể đó là gì nhưng tôi sẽ gọi chúng là "vé". Chúng tôi thực hiện một "quan sát" của một hộp bằng cách trộn kỹ các vé và rút ra; vé đó tạo thành sự quan sát. Sau khi ghi lại để phân tích sau, chúng tôi trả lại vé vào hộp để nội dung của nó không thay đổi. Một "biến ngẫu nhiên" về cơ bản là một số được ghi trên mỗi vé.
Vào năm 1733, Abraham de Moivre đã xem xét trường hợp của một hộp duy nhất trong đó các số trên vé chỉ là số không và số ("các thử nghiệm Bernoulli"), với một số của mỗi số hiện diện. Anh ta tưởng tượng thực hiện quan sát độc lập về mặt vật lý , thu được một chuỗi các giá trị , tất cả đều bằng 0 hoặc một. Các tổng của những giá trị, , là ngẫu nhiên vì các điều khoản trong tổng là. Do đó, nếu chúng ta có thể lặp lại quy trình này nhiều lần, các khoản tiền khác nhau (toàn bộ số từ đến ) sẽ xuất hiện với các tần số khác nhau - tỷ lệ của tổng số. (Xem biểu đồ bên dưới.)x 1 , x 2 , ... , x n y n = x 1 + x 2 + ... + x n 0 nnx1,x2,…,xnyn=x1+x2+…+xn0n
Bây giờ người ta sẽ mong đợi - và đó là sự thật - rằng với các giá trị rất lớn của , tất cả các tần số sẽ khá nhỏ. Nếu chúng ta quá táo bạo (hoặc dại dột) khi cố gắng "vượt quá giới hạn" hoặc "để đi đến ", chúng ta sẽ kết luận chính xác rằng tất cả các tần số giảm xuống . Nhưng nếu chúng ta chỉ đơn giản vẽ biểu đồ tần số, mà không chú ý đến cách các trục của nó được dán nhãn, chúng ta sẽ thấy rằng biểu đồ cho lớn bắt đầu trông giống nhau: theo một nghĩa nào đó, các biểu đồ này đạt đến giới hạn mặc dù tần số tất cả đều đi về không.n ∞ 0 nnn∞0n
Các biểu đồ này mô tả kết quả của việc lặp lại quy trình lấy nhiều lần. là "số lượng thử nghiệm" trong các tiêu đề. nynn
Cái nhìn sâu sắc ở đây là vẽ biểu đồ trước và dán nhãn trục của nó sau . Với lớn , biểu đồ bao gồm một phạm vi lớn các giá trị tập trung quanh (trên trục hoành) và một khoảng nhỏ của các giá trị (trên trục tung), bởi vì các tần số riêng lẻ phát triển khá nhỏ. Do đó, việc lắp đường cong này vào vùng vẽ cần có cả sự dịch chuyển và thay đổi kích thước của biểu đồ. Mô tả toán học này là với mỗi chúng ta có thể chọn một số giá trị trung tâm (không nhất thiết là duy nhất!) Để định vị biểu đồ và một số giá trị tỷ lện / 2 n m n s n y n z n = ( y n - m n ) / s nnn/2nmnsn(không nhất thiết phải là duy nhất!) để làm cho nó phù hợp với các trục. Điều này có thể được thực hiện bằng toán học bằng cách thay đổi thành .ynzn=(yn−mn)/sn
Hãy nhớ rằng biểu đồ thể hiện tần số theo các khu vực giữa nó và trục hoành. Do đó, sự ổn định cuối cùng của các biểu đồ cho các giá trị lớn của do đó nên được nêu trong điều khoản của khu vực. n a b > a n z n ( a , b ] Vì vậy, hãy chọn bất kỳ khoảng nào của các giá trị bạn thích, giả sử từ đến và, khi tăng, theo dõi khu vực của một phần của biểu đồ của kéo dài theo chiều ngang . CLT khẳng định một số nhiều thứ:ab>anzn(a,b]
Bất kể và là gì,b ab nếu chúng ta chọn các chuỗi và một cách thích hợp (theo cách hoàn toàn không phụ thuộc vào hoặc ), khu vực này thực sự đạt đến giới hạn khi trở nên lớn.s n a b nmnsnabn
Các chuỗi và có thể được chọn theo cách chỉ phụ thuộc vào , trung bình của các giá trị trong hộp và một số thước đo mức độ lây lan của các giá trị đó - nhưng không có gì khác - sao cho không có gì trong hộp , giới hạn luôn luôn giống nhau. (Tài sản phổ quát này là tuyệt vời.)s n nmnsnn
Cụ thể, khu vực giới hạn đó là khu vực dưới đường cong giữa và : đây là công thức của biểu đồ giới hạn phổ quát đó. aby=exp(−z2/2)/2π−−√ab
Tổng quát hóa đầu tiên của CLT cho biết thêm,
Khi hộp có thể chứa các số ngoài số 0 và số không, chính xác cùng một kết luận (với điều kiện là tỷ lệ của số cực lớn hoặc nhỏ trong hộp không "quá lớn", một tiêu chí có tuyên bố định lượng chính xác và đơn giản) .
Sự khái quát hóa tiếp theo, và có lẽ là điều tuyệt vời nhất, thay thế hộp vé duy nhất này bằng một dãy hộp dài vô tận được đặt hàng với vé. Mỗi hộp có thể có số lượng khác nhau trên vé của nó theo tỷ lệ khác nhau. Quan sát được thực hiện bằng cách vẽ một vé từ hộp đầu tiên, đến từ hộp thứ hai, v.v.x 2x1x2
Chính xác các kết luận giống nhau được cung cấp với nội dung của các hộp là "không quá khác biệt" (có một số đặc điểm chính xác, nhưng khác nhau, về số lượng "không quá khác biệt" có nghĩa là gì, chúng cho phép một lượng vĩ độ đáng kinh ngạc).
Năm khẳng định này, ở mức tối thiểu, cần giải thích. Còn nữa. Một số khía cạnh hấp dẫn của thiết lập được ẩn trong tất cả các báo cáo. Ví dụ,
Tổng số có gì đặc biệt ? Tại sao chúng ta không có các định lý giới hạn trung tâm cho các tổ hợp toán học khác của các số như sản phẩm của chúng hoặc tối đa của chúng? (Hóa ra chúng tôi làm, nhưng chúng không hoàn toàn chung chung và cũng không phải lúc nào cũng có một kết luận đơn giản, sạch sẽ trừ khi chúng có thể được rút gọn thành CLT.) Trình tự của và không phải là duy nhất nhưng chúng gần như là duy nhất theo nghĩa là cuối cùng họ phải tính gần đúng kỳ vọng của tổng số vé và độ lệch chuẩn của tổng, tương ứng (trong hai câu lệnh đầu tiên của CLT, bằng lần độ lệch chuẩn của cái hộp). s n n √mnsnnn−−√
Độ lệch chuẩn là một thước đo cho sự lan truyền của các giá trị, nhưng nó không phải là duy nhất cũng không phải là "tự nhiên" nhất, trong lịch sử hoặc cho nhiều ứng dụng. ( Ví dụ, nhiều người sẽ chọn một cái gì đó giống như độ lệch tuyệt đối trung vị so với trung vị .)
Tại sao SD xuất hiện một cách thiết yếu như vậy?
Hãy xem xét công thức cho biểu đồ giới hạn: ai có thể mong đợi nó có dạng như vậy? Nó nói logarit của mật độ xác suất là một hàm bậc hai . Tại sao? Có một số giải thích trực quan hoặc rõ ràng, thuyết phục cho điều này?
Tôi thú nhận rằng tôi không thể đạt được mục tiêu cuối cùng là cung cấp các câu trả lời đủ đơn giản để đáp ứng các tiêu chí thách thức của Srikant về tính trực giác và đơn giản, nhưng tôi đã phác thảo nền tảng này với hy vọng rằng những người khác có thể được truyền cảm hứng để lấp đầy một số khoảng trống. Tôi nghĩ rằng một minh chứng tốt cuối cùng sẽ phải dựa vào phân tích cơ bản về cách các giá trị giữa và có thể phát sinh khi tạo tổng . Quay trở lại phiên bản hộp đơn của CLT, trường hợp phân phối đối xứng đơn giản hơn để xử lý: trung vị của nó bằng với giá trị trung bình của nó, do đó, có 50% khả năng sẽ nhỏ hơn giá trị trung bình của hộp và 50% cơ hộiβ n = b s n + m n x 1 + x 2 + ... + x n x i x i nαn=asn+mnβn=bsn+mnx1+x2+…+xnxixisẽ lớn hơn ý nghĩa của nó. Hơn nữa, khi đủ lớn, độ lệch dương so với giá trị trung bình phải bù cho độ lệch âm trong giá trị trung bình. (Điều này đòi hỏi một số biện minh cẩn thận, không chỉ vẫy tay.) Vì vậy, chúng tôi chủ yếu phải quan tâm đến việc đếm số lượng độ lệch dương và âm và chỉ có mối quan tâm thứ cấp về kích thước của chúng .n (Trong tất cả những điều tôi đã viết ở đây, điều này có thể hữu ích nhất trong việc cung cấp một số trực giác về lý do tại sao CLT hoạt động. Thật vậy, các giả định kỹ thuật cần thiết để đưa ra những khái quát về CLT đúng là những cách khác nhau để loại trừ khả năng độ lệch lớn hiếm gặp sẽ làm đảo lộn sự cân bằng đủ để ngăn chặn biểu đồ giới hạn phát sinh.)
Điều này cho thấy, ở một mức độ nào đó, tại sao việc khái quát hóa đầu tiên của CLT không thực sự phát hiện ra bất cứ điều gì không có trong phiên bản dùng thử Bernoulli ban đầu của de Moivre.
Tại thời điểm này, có vẻ như không có gì cho nó ngoài việc làm một phép toán nhỏ: chúng ta cần đếm số cách khác nhau trong đó số độ lệch dương so với giá trị trung bình có thể khác với số độ lệch âm theo bất kỳ giá trị định trước , trong đó hiển nhiên là một trong . Nhưng vì các lỗi nhỏ biến mất sẽ biến mất trong giới hạn, chúng tôi không phải đếm chính xác; chúng ta chỉ cần tính gần đúng số lượng. Cuối cùng, điều đó đủ để biết rằngk - n , - n + 2 , ... , n - 2 , nkk−n,−n+2,…,n−2,n
The number of ways to obtain k positive and n−k negative values out of n
equals n−k+1k
times the number of ways to get k−1 positive and n−k+1 negative values.
(Đó là một kết quả hoàn hảo cơ bản vì vậy tôi sẽ không bận tâm viết ra lời biện minh.) Bây giờ chúng tôi ước tính bán buôn. Tần số tối đa xảy ra khi càng gần càng tốt (cũng là sơ cấp). Hãy viết . Sau đó, liên quan đến tần số tối đa, tần số của độ lệch dương ( ) được ước tính bởi sản phẩmn / 2 m = n / 2 m + j + 1 j ≥ 0kn/2m=n/2m+j+1j≥0
m+1m+1mm+2⋯m−j+1m+j+1
=1−1/(m+1)1+1/(m+1)1−2/(m+1)1+2/(m+1)⋯1−j/(m+1)1+j/(m+1).
135 năm trước khi de Moivre viết, John Napier đã phát minh ra logarit để đơn giản hóa phép nhân, vì vậy hãy tận dụng điều này. Sử dụng xấp xỉ
log(1−x1+x)∼−2x,
chúng tôi thấy rằng nhật ký của tần số tương đối là khoảng
−2/(m+1)−4/(m+1)−⋯−2j/(m+1)=−j(j+1)m+1∼−j2m.
Vì lỗi tích lũy tỷ lệ thuận với , nên điều này phải hoạt động tốt với điều kiện là nhỏ so với . Điều đó bao gồm một phạm vi giá trị lớn hơn mức cần thiết. (Nó đủ cho phép tính gần đúng chỉ hoạt động cho theo thứ tự mà không có triệu chứng nhỏ hơn nhiều so với .)j4/m3j4m3jjm−−√m3/4
Rõ ràng cần phân tích nhiều hơn về loại này để chứng minh cho các xác nhận khác trong CLT, nhưng tôi sắp hết thời gian, không gian và năng lượng và có lẽ tôi đã mất 90% những người bắt đầu đọc nó. Tuy nhiên, phép tính gần đúng đơn giản này cho thấy ban đầu de Moivre có thể nghi ngờ rằng có phân phối giới hạn phổ quát như thế nào , logarit của nó là một hàm bậc hai và hệ số tỷ lệ thích hợp phải tỷ lệ thuận với (vì (vì ).snn−−√j2/m=2j2/n=2(j/n−−√)2 Thật khó để tưởng tượng làm thế nào mối quan hệ định lượng quan trọng này có thể được giải thích mà không cần gọi một số loại thông tin và lý luận toán học; bất cứ điều gì ít hơn sẽ để lại hình dạng chính xác của đường cong giới hạn là một bí ẩn hoàn toàn.