Tại sao định lý giới hạn trung tâm làm việc với một mẫu duy nhất?


12

Tôi luôn được dạy rằng CLT hoạt động khi bạn lấy mẫu lặp lại, với mỗi mẫu đủ lớn. Ví dụ, hãy tưởng tượng tôi có một đất nước gồm 1.000.000 công dân. Sự hiểu biết của tôi về CLT là ngay cả khi phân phối chiều cao của họ không bình thường, nếu tôi lấy 1000 mẫu của 50 người (tức là thực hiện 1000 khảo sát cho 50 công dân mỗi người), sau đó tính chiều cao trung bình của họ cho mỗi mẫu, phân phối các mẫu này có nghĩa là bình thường.

Tuy nhiên, tôi chưa bao giờ thấy một trường hợp thực tế nào trong đó các nhà nghiên cứu lấy các mẫu lặp đi lặp lại. Thay vào đó, họ lấy một mẫu lớn (tức là khảo sát 50.000 công dân về chiều cao của họ) và làm việc từ đó.

Tại sao sách thống kê dạy lấy mẫu lặp đi lặp lại và trong thế giới thực, các nhà nghiên cứu chỉ tiến hành một mẫu duy nhất?

Chỉnh sửa: Trường hợp thực tế mà tôi đang nghĩ đến là thực hiện thống kê trên bộ dữ liệu của 50.000 người dùng twitter. Bộ dữ liệu đó rõ ràng không phải là các mẫu lặp lại, nó chỉ là một mẫu lớn 50.000.


Lấy một mẫu 1000 từ 50.000 gần giống như lấy 1000 mẫu đơn độc lập từ 50.000. Mẫu càng nhỏ (hoặc vũ trụ càng lớn) thì chúng sẽ càng giống nhau.
Thomas Ahle

Câu trả lời:


14

Các CLT (ít nhất là trong một số hình thức khác nhau của nó), ta thấy trong giới hạn như phân phối của một mẫu chuẩn đơn trung bình ( ) hội tụ đến một phân phối bình thường (trong một số điều kiện).nX¯μσ/n

CLT không cho chúng tôi biết điều gì xảy ra ở hoặc .n=50n=50,000

Nhưng trong nỗ lực thúc đẩy CLT, đặc biệt khi không có bằng chứng nào về CLT, một số người dựa vào phân phối lấy mẫu của cho các mẫu hữu hạn và cho thấy khi các mẫu lớn hơn được lấy thì phân phối lấy mẫu càng gần với bình thườngX¯

Nói một cách chính xác điều này không thể hiện CLT, nó gần như thể hiện định lý Berry-Esseen, vì nó chứng minh điều gì đó về tốc độ tiếp cận với tính quy tắc - nhưng điều đó sẽ dẫn chúng ta đến CLT, vì vậy nó sẽ dẫn chúng ta đến CLT, vì vậy nó phục vụ đủ tốt như động lực (và trên thực tế, thường thì một cái gì đó như Berry-Esseen đến gần hơn với những gì mọi người thực sự muốn sử dụng trong các mẫu hữu hạn, do đó, động lực đó có thể hữu ích hơn trong thực tế so với định lý giới hạn trung tâm) .

phân phối của các phương tiện mẫu sẽ là bình thường.

Chà, không, chúng sẽ không bình thường nhưng thực tế chúng sẽ rất gần với bình thường (chiều cao có phần lệch nhưng không lệch lắm ).

[Lưu ý một lần nữa rằng CLT thực sự không cho chúng ta biết gì về hành vi của mẫu có nghĩa là ; đây là những gì tôi đã nhận được với cuộc thảo luận trước đây của tôi về Berry-Esseen, điều này liên quan đến việc một cdf bình thường có thể phân phối các phương tiện tiêu chuẩn hóa như thế nào đối với các mẫu hữu hạn]n=50

Trường hợp thực tế mà tôi đang nghĩ đến là làm số liệu thống kê về bộ dữ liệu của 50.000 người dùng twitter. Bộ dữ liệu đó rõ ràng không phải là các mẫu lặp lại, nó chỉ là một mẫu lớn 50.000.

Đối với nhiều bản phân phối, trung bình mẫu của 50.000 mặt hàng sẽ rất gần với phân phối bình thường - nhưng không được bảo đảm, thậm chí ở mức n = 50.000 mà bạn sẽ có rất gần với phân phối bình thường (nếu phân phối của các mặt hàng riêng lẻ là đủ xiên, ví dụ, sau đó phân phối phương tiện mẫu vẫn có thể bị lệch đủ để tạo ra một xấp xỉ bình thường không thể đo được).

( Định lý Berry-Esseen sẽ khiến chúng ta dự đoán rằng chính xác vấn đề đó có thể xảy ra - và thật đáng kinh ngạc . Thật dễ dàng để đưa ra các ví dụ mà CLT áp dụng nhưng với n = 50.000 không phải là một mẫu đủ lớn cho mẫu chuẩn có nghĩa là gần với bình thường.)


Để kiểm tra xem 50.000 có đủ lớn không, người ta có thể thực hiện mô phỏng trong R chẳng hạn, đúng không? Tôi sẽ sử dụng giá trị trung bình và độ lệch chuẩn của mẫu, nhưng làm cách nào để đảm bảo mô phỏng từ cùng một phân phối mẫu của tôi?
Amonet

Nói đúng ra, bạn cần mô phỏng từ sự phân bố dân số. Bạn có thể coi việc phân phối mẫu của bạn như một ước tính về phân bố dân số (điều này gần giống với bootstrapping) - nhưng điều này sẽ không phù hợp cho mục đích như vậy. Ví dụ, xem xét việc rút ra một mẫu từ phân phối Cauchy, và sau đó lấy mẫu lại từ đó với sự thay thế. (đối với các mẫu ngày càng lớn hơn), cho đến khi phân phối của các phương tiện được lấy mẫu lại xuất hiện "đủ bình thường". Bạn sẽ luôn kết luận rằng một số cỡ mẫu hữu hạn là đủ, nhưng sự thật nó sẽ không bao giờ như vậy.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.