Tại sao không phải là công việc CLT cho


16

Vì vậy, chúng ta biết rằng một khoản n poissons với tham số λ là chính nó một Poisson với nλ . Vì vậy, giả thuyết, người ta có thể mất xpoisson(λ=1) và nói rằng nó thực sự là 1nxipoisson(λ=1) trong đó mỗi xi là: xipoisson(λ=1/n) , và tham gia một n lớn để có được CLT lại làm việc.

Điều này (rõ ràng) không hoạt động. Tôi giả sử điều này có liên quan đến cách CLT hoạt động "nhanh hơn" đối với các biến ngẫu nhiên "gần" hơn với bình thường và lambda càng nhỏ, chúng ta càng nhận được một biến ngẫu nhiên chủ yếu là 0 và hiếm khi thay đổi khác.

Tuy nhiên, những gì tôi giải thích là trực giác của tôi. Có một cách chính thức hơn để giải thích tại sao đây là trường hợp?

Cảm ơn!


6
Để bắt đầu, CLT cần bạn chia i=1nxi bởi n (trong trường hợp đó bạn sẽ hội tụ đến một gaussian).
Alex R.

1
@AlexR. Không bạn chia bởi n , sau đó độ lệch chuẩn sẽ là một yếu tố của 1/n
Aksakal

4
Tôi không thấy câu hỏi này có liên quan gì với CLT "không hoạt động." CLT liên quan đến tổng các biến ngẫu nhiên được tiêu chuẩn hóa với một phân phối nhất định , trong khi bạn đang lấy một biến ngẫu nhiên duy nhất và dự tính vô số cách để phân chia nó.
whuber

2
@AlexR Việc thiết lập có vẻ như tất cả đều sai. Có hai quá trình khác nhau đang diễn ra ở đây - tổng kết và phân chia - và không có lý do gì để cho rằng chúng nên có các đặc điểm tiệm cận tương tự.
whuber

3
@Aksakal: thực ra, AlexR là chính xác. Nếu bạn chia bởi , bạn sẽ có được một bản phân phối thoái hóa như n . Nếu bạn chia nn , bạn tiếp cận một phân phối chuẩn với sd = 1 nhưn. nn
Vách đá AB

Câu trả lời:


13

Tôi đồng ý với @whuber rằng gốc rễ của sự nhầm lẫn dường như đang thay thế sự tiệm cận tổng hợp trong CLT bằng một số cách phân chia trong đối số của bạn. Trong CLT chúng tôi nhận được cố định phân phối sau đó rút ra n số x i từ nó và tính toán tổng ˉ x n = 1f(x,λ)nxi . Nếu chúng tôi tiếp tục tăngnsau đó là một điều thú vị xảy ra: x¯n=1ni=1nxin nơiμ,σ2là trung bình và phương sai của phân phốif(x).

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

Những gì bạn đang đề xuất để làm với Poisson là hơi ngược: thay vì cách tổng hợp các biến từ một cố định phân phối, bạn muốn chia các cố định phân phối vào bao giờ thay đổi các bộ phận. Nói cách khác, bạn phải mất một biến từ một cố định phân phối f ( x , λ ) sau đó chia nó thành x i sao cho n Σ i = 1 x ixxf(x,λ)xi

i=1nxix

CLT nói gì về quy trình này? Không có gì. Lưu ý, làm thế nào trong CLT chúng tôi đã bao giờ thay đổi , và nóthay đổiphân phốifn(x)là hội tụ đến mộtcố địnhphân phốiN(0,σ2)n(x¯nμ)fn(x)N(0,σ2)

Trong thiết lập của bạn không phải là tổng và cũng không phân phối f ( x , λ ) đang thay đổi! Chúng đã được sửa. Họ không thay đổi, họ không hội tụ bất cứ điều gì. Vì vậy, CLT không có gì để nói về họ.xf(x,λ)

Ngoài ra, CLT không nói gì về số lượng phần tử trong tổng. Bạn có thể có tổng 1000 biến từ Poisson (0,001) và CLT sẽ không nói gì về tổng. Tất cả những gì nó nói là nếu bạn tiếp tục tăng N thì đến một lúc nào đó, tổng này sẽ bắt đầu giống như một phân phối bình thường . Trong thực tế, nếu N = 1.000.000, bạn sẽ có được xấp xỉ gần đúng với phân phối bình thường.1Ni=1Nxi,xiPoisson(0.001)

Trực giác của bạn chỉ đúng về số lượng phần tử trong tổng, tức là hơn phân phối bắt đầu khác với bình thường, sau đó nhiều yếu tố bạn cần tổng hợp để trở lại bình thường. Cách trang trọng hơn (nhưng vẫn không chính thức) sẽ là bằng cách nhìn vào các chức năng đặc trưng của Poisson: Nếu bạn bước sóng > > 1 , bạn nhận được với việc mở rộng Taylor (wrt t ) của số mũ lồng nhau: exp ( i λ t - λ / 2 t 2

exp(λ(exp(it)1))
λ>>1t Đây là chức năng đặc trưng của phân phối chuẩn N
exp(iλtλ/2t2)
N(λ,λ2)

Tuy nhiên, trực giác của bạn không được áp dụng một cách chính xác: việc bạn thay thế tổng kết trong CLT với một số loại phân chia làm rối tung mọi thứ và khiến CLT không thể áp dụng được.


+1 Tài liệu ban đầu được diễn đạt độc đáo, rất rõ ràng và đi vào trọng tâm của vấn đề.
whuber

7

The problem with your example is that you are allowing the parameters to change as n changes. The CLT tells you that for a fixed distribution with a finite mean and sd, as n,

xμndN(0,σ),

where μ and σ are from the mean and sd of the distribution of x.

Of course, for different distributions (i.e. higher skewed for example), larger n's are required before the approximation derived from this theorem become reasonable. In your example, for λm=1/m, an n>>m is required before the normal approximation is reasonable.

EDIT

There is discussion about how the CLT does not apply to sums, but rather to standardized sums (i.e. xi/n not xi). In theory, this is of course true: the unstandardized sum will have an undefined distribution in most cases.

However, in practice, you certainly can apply the approximation justified by the CLT to sums! If Fx¯ can be approximated by a normal CDF for large n, then certainly Fx can too, as multiplying by a scalar preserves normality. And you can see this right away in this problem: recall that if XiPois(λ), then Y=i=1nXiPois(nλ)λPois(λ)μ=λ, σ2=λ. So for any fixed λ, we can approximate the CDF of YPois(nλ) fairly well with Φ(ynλnλ) for a large enough n if λ>0 (approximation can trivially be applied if λ=0, but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.


5

The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend on n, say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=i=1nXi,n. After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of Xi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n. If you would instead have taken, for example, SnPoi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.


+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.