Tại sao Định lý giới hạn trung tâm bị phá vỡ trong mô phỏng của tôi?


21

Giả sử tôi có các số sau:

4,3,5,6,5,3,4,2,5,4,3,6,5

Tôi lấy mẫu một số trong số chúng, giả sử, 5 trong số chúng, và tính tổng của 5 mẫu. Sau đó, tôi lặp đi lặp lại nhiều lần để có được nhiều khoản tiền và tôi vẽ các giá trị của các khoản tiền trong một biểu đồ, sẽ là Gaussian do Định lý giới hạn trung tâm.

Nhưng khi họ theo số, tôi chỉ thay 4 bằng một số lớn:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Tổng hợp lấy mẫu của 5 mẫu từ những mẫu này không bao giờ trở thành Gaussian trong biểu đồ, mà giống như một sự phân tách và trở thành hai Gaussian. Tại sao vậy?


1
Nó sẽ không làm điều đó nếu bạn tăng nó lên hơn n = 30 hoặc hơn ... chỉ là sự nghi ngờ của tôi và phiên bản ngắn gọn hơn / khôi phục câu trả lời được chấp nhận bên dưới.
oemb1905

@JimSD CLT là một kết quả tiệm cận (nghĩa là về việc phân phối các phương tiện mẫu hoặc số tiền được chuẩn hóa trong giới hạn khi kích thước mẫu đi đến vô cùng). không phải là n . Thứ bạn đang xem (cách tiếp cận tính quy phạm trong các mẫu hữu hạn) không hoàn toàn là kết quả của CLT, mà là kết quả có liên quan. n=5n
Glen_b -Reinstate Monica

3
@ oemb1905 n = 30 là không đủ cho loại độ lệch mà OP đang đề xuất. Tùy thuộc vào mức độ hiếm mà sự nhiễm bẩn có giá trị như , có thể mất n = 60 hoặc n = 100 hoặc thậm chí nhiều hơn trước khi bình thường trông giống như một xấp xỉ hợp lý. Nếu ô nhiễm khoảng 7% (như trong câu hỏi) thì n = 120 vẫn hơi bị lệch107
Glen_b -Reinstate Monica


Hãy nghĩ rằng các giá trị trong các khoảng thời gian như (1.100.000, 1.900.000) sẽ không bao giờ đạt được. Nhưng nếu bạn thực hiện một số tiền kha khá những khoản tiền đó, nó sẽ hoạt động!
David

Câu trả lời:


18

Hãy nhớ lại, chính xác, những gì định lý giới hạn trung tâm nói.

Nếu X1,X2,,Xk là độc lập và phân phối hệt biến ngẫu nhiên với (chia sẻ) trung bình μ và độ lệch chuẩn σ , sau đó X1+X2++Xkkσk hội tụ trong phân phối đến phân phối chuẩnN(0,1)(*).

Điều này thường được sử dụng ở dạng "không chính thức":

Nếu X1,X2,,Xk là độc lập và phân phối hệt biến ngẫu nhiên với (chia sẻ) trung bình μ và độ lệch chuẩn σ , sau đó X1+X2++Xk hội tụ "trong phân phối" với phân phối chuẩn chuẩn N(kμ,kσ).

Không có cách nào tốt để biến dạng CLT thành chính xác về mặt toán học, vì thay đổi phân phối "giới hạn", nhưng nó hữu ích trong thực tiễn.

Khi chúng ta có một danh sách tĩnh các số như

4,3,5,6,5,3,10000000,2,5,4,3,6,5

và chúng tôi đang lấy mẫu bằng cách lấy một số ngẫu nhiên từ danh sách này, để áp dụng định lý giới hạn trung tâm, chúng tôi cần chắc chắn rằng sơ đồ lấy mẫu của chúng tôi thỏa mãn hai điều kiện độc lập và phân phối giống hệt nhau.

  • Phân phối giống hệt nhau không có vấn đề: mỗi số trong danh sách đều có khả năng được chọn như nhau.
  • Độc lập là tinh tế hơn, và phụ thuộc vào sơ đồ lấy mẫu của chúng tôi. Nếu chúng tôi đang lấy mẫu mà không thay thế , thì chúng tôi vi phạm tính độc lập. Chỉ khi chúng ta lấy mẫu với sự thay thế thì định lý giới hạn trung tâm mới được áp dụng.

Vì vậy, nếu chúng ta sử dụng với lấy mẫu thay thế trong sơ đồ của bạn, thì chúng ta sẽ có thể áp dụng định lý giới hạn trung tâm. Đồng thời, bạn đã đúng, nếu mẫu của chúng tôi có kích thước 5, thì chúng ta sẽ thấy hành vi rất khác nhau tùy thuộc vào việc số lượng rất lớn được chọn hay không được chọn trong mẫu của chúng tôi.

Vậy chà là gì? Chà, tốc độ hội tụ đến phân phối bình thường phụ thuộc rất nhiều vào hình dạng dân số mà chúng ta đang lấy mẫu, đặc biệt, nếu dân số của chúng ta rất lệch, chúng ta hy vọng sẽ mất nhiều thời gian để hội tụ về mức bình thường. Đây là trường hợp trong ví dụ của chúng tôi, vì vậy chúng tôi không nên hy vọng rằng một mẫu có kích thước 5 là đủ để hiển thị cấu trúc bình thường.

Ba phân phối bình thường

Ở trên tôi đã lặp lại thí nghiệm của bạn (với lấy mẫu thay thế) cho các mẫu có kích thước 5, 100 và 1000. Bạn có thể thấy rằng cấu trúc bình thường xuất hiện cho các mẫu rất lớn.

(*) Lưu ý có một số điều kiện kỹ thuật cần thiết ở đây, như trung bình hữu hạn và phương sai. Chúng dễ dàng được xác minh là đúng trong mẫu của chúng tôi từ một ví dụ danh sách.


Cảm ơn bạn cho một câu trả lời rất nhanh chóng và hoàn hảo. Ý tưởng về CLT, thay thế, sự cần thiết của nhiều mẫu hơn khi phân phối dữ liệu bị sai lệch, ... Bây giờ rất rõ ràng. Mục đích ban đầu của tôi về câu hỏi là, như bạn đã đề cập, trường hợp khi một số lượng lớn được đưa vào mà không thay thế và số lượng mẫu được cố định. Nó hành xử rất khác nhau, và do đó chúng ta cần xem xét CLT "có điều kiện" cho trường hợp một số lượng lớn được lấy mẫu và trường hợp không được lấy mẫu. Tôi tự hỏi nếu có bất kỳ nghiên cứu hoặc công việc trước cho điều đó .. Nhưng dù sao cũng cảm ơn bạn.
JimSD

không biết có thể áp dụng ở đây không, nhưng định lý về sự hội tụ CLT được quy định bởi skewness en.wikipedia.org/wiki/
BlackBerry% E2% 80% 93Esseen_theorem

Xkk

1
|Fn(x)Φ(x)|ρ/σ3

1
@Glen_b Yah, tôi đã có một chút không chính thức (điều mà có lẽ tôi không nên có), nhưng tôi có thể khắc phục điều đó vào chiều nay vì nó dẫn đến một chút nhầm lẫn.
Matthew Drury

12

5305

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

nhập mô tả hình ảnh ở đây

30

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

nhập mô tả hình ảnh ở đây

100

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

nhập mô tả hình ảnh ở đây


3
Đó không phải là phương sai là vấn đề. Một cách để có được sự kiểm soát chặt chẽ là sử dụng tỷ lệ của khoảnh khắc trung tâm thứ ba với độ lệch chuẩn được lập phương, như trong định lý Berry-Esseen.
anh chàng

Hoàn hảo. Thêm. Tks.
Thiền

1
Cảm ơn bạn đã trả lời nhanh chóng, trực quan và hoàn hảo với một mã. Tôi đã rất ngạc nhiên khi nó nhanh như thế nào! Tôi đã không nhận thức được số lượng mẫu thích hợp. Tôi đã nghĩ về trường hợp số lượng mẫu được cố định.
JimSD

@guy, Cảm ơn bạn vì điều đó. Tôi không biết ý tưởng về "tỷ lệ của khoảnh khắc trung tâm thứ ba so với độ lệch chuẩn được đặt trong định lý Berry-Esseen" . Tôi chỉ muốn giải quyết trường hợp có một số lượng lớn như ngoại lệ được đưa vào phân phối. Và loại phân phối đó có thể được phản ánh như bạn đã đề cập, tôi cho rằng. Nếu bạn biết bất kỳ công việc nào trước đây liên quan đến loại phân phối đó, hãy cho tôi biết, cảm ơn bạn.
JimSD

2
ρ=E[|Xμ|3]μ3=E[(Xμ)3]

7

Tôi chỉ muốn giải thích, sử dụng các hàm tạo tích lũy phức tạp , tại sao mọi người cứ đổ lỗi cho điều này.

μ+σZμσZ01Z12t2iγ16t3+o(t3)γ1Zκ3μ+σZγ1=σ3κ3

nZn

n(12(tn)2iγ16(tn)3)+o(t3)=12t2iγ16nt3+o(t3).
tnnγ12γ1


-1

Câu trả lời ngắn gọn là, bạn không có một mẫu đủ lớn để áp dụng định lý giới hạn trung tâm.


1
Rằng điều này không thể là một lời giải thích hợp lệ là điều hiển nhiên từ quan sát rằng CLT đưa ra một xấp xỉ tốt cho tập dữ liệu đầu tiên trong câu hỏi, cũng nhỏ không kém.
whuber

@whuber: Tôi nghĩ rằng bạn đang nói rằng phân phối bình thường cho một xấp xỉ hợp lý tốt cho một mẫu năm từ tập đầu tiên. Vì chỉ có một số lượng giá trị hữu hạn cho các tổng (13 giá trị có thể không có thay thế và 21 giá trị có thể thay thế), nên phép tính gần đúng không tốt hơn với số lượng lớn mẫu là năm và xấp xỉ ban đầu là do mô hình ban đầu ...
Henry

@whuber Vì việc phân phối của tập đầu tiên có vẻ bị lệch, tôi sẽ cho rằng tổng của năm cũng sẽ bị lệch, theo cách ít cực đoan hơn tôi dự đoán tổng của năm từ tập thứ hai sẽ bị lệch. Để làm giảm độ lệch để giảm hơn nữa, tôi đã nghĩ rằng bạn sẽ cần một cỡ mẫu lớn hơn
Henry

1
@Henry Cảm ơn bạn đã bình luận. Tôi đã không nhận xét về những trường hợp cụ thể này, nhưng chỉ về logic của câu trả lời này, với hy vọng rằng nó có thể được giải thích thêm.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.