Tại sao không phải là công việc CLT cho

Vì vậy, chúng ta biết rằng một khoản $n$ poissons với tham số $\lambda$ là chính nó một Poisson với $n\lambda$ . Vì vậy, giả thuyết, người ta có thể mất $x \sim poisson(\lambda = 1)$ và nói rằng nó thực sự là $\sum_1^n x_i \sim poisson(\lambda = 1)$ trong đó mỗi $x_i$ là: $x_i \sim poisson(\lambda = 1/n)$ , và tham gia một n lớn để có được CLT lại làm việc.

Điều này (rõ ràng) không hoạt động. Tôi giả sử điều này có liên quan đến cách CLT hoạt động "nhanh hơn" đối với các biến ngẫu nhiên "gần" hơn với bình thường và lambda càng nhỏ, chúng ta càng nhận được một biến ngẫu nhiên chủ yếu là 0 và hiếm khi thay đổi khác.

Tuy nhiên, những gì tôi giải thích là trực giác của tôi. Có một cách chính thức hơn để giải thích tại sao đây là trường hợp?

Cảm ơn!

poisson-distribution central-limit-theorem asymptotics

— Tal Galili
nguồn

Để bắt đầu, CLT cần bạn chia

\sum_{i = 1}^{n} x_{i}

$\sum_{i=1}^nx_i$ bởi

\sqrt{n}

$\sqrt{n}$ (trong trường hợp đó bạn sẽ hội tụ đến một gaussian).

— Alex R.

@AlexR. Không bạn chia bởi

n

$n$ , sau đó độ lệch chuẩn sẽ là một yếu tố của

1 / \sqrt{n}

$1/\sqrt n$

— Aksakal

Tôi không thấy câu hỏi này có liên quan gì với CLT "không hoạt động." CLT liên quan đến tổng các biến ngẫu nhiên được tiêu chuẩn hóa với một phân phối nhất định , trong khi bạn đang lấy một biến ngẫu nhiên duy nhất và dự tính vô số cách để phân chia nó.

— whuber

@AlexR Việc thiết lập có vẻ như tất cả đều sai. Có hai quá trình khác nhau đang diễn ra ở đây - tổng kết và phân chia - và không có lý do gì để cho rằng chúng nên có các đặc điểm tiệm cận tương tự.

— whuber

@Aksakal: thực ra, AlexR là chính xác. Nếu bạn chia bởi

, bạn sẽ có được một bản phân phối thoái hóa như

. Nếu bạn chia

n

$n$

n \to \infty

$n \rightarrow \infty$

, bạn tiếp cận một phân phối chuẩn với sd = 1 như

\sqrt{n}

$\sqrt n$

n \to \infty

$n \rightarrow \infty$

— Vách đá AB

Câu trả lời:

Tôi đồng ý với @whuber rằng gốc rễ của sự nhầm lẫn dường như đang thay thế sự tiệm cận tổng hợp trong CLT bằng một số cách phân chia trong đối số của bạn. Trong CLT chúng tôi nhận được cố định phân phối sau đó rút ra số từ nó và tính toán tổng $f(x,\lambda)$ $n$ $x_i$ . Nếu chúng tôi tiếp tục tăngsau đó là một điều thú vị xảy ra: $\bar x_n=\frac{1}{n}\sum_{i=1}^nx_i$ $n$ nơilà trung bình và phương sai của phân phối.

\sqrt{n} ({\bar{x}}_{n} - μ) \to N (0, σ^{2})

$\sqrt n (\bar x_n-\mu)\rightarrow\mathcal{N}(0,\sigma^2)$

μ, σ^{2}

$\mu,\sigma^2$

f (x)

$f(x)$

Những gì bạn đang đề xuất để làm với Poisson là hơi ngược: thay vì cách tổng hợp các biến từ một cố định phân phối, bạn muốn chia các cố định phân phối vào bao giờ thay đổi các bộ phận. Nói cách khác, bạn phải mất một biến từ một cố định phân phối sau đó chia nó thành sao cho $x$ $f(x,\lambda)$ $x_i$

\sum_{i = 1}^{n} x_{i} \equiv x

$\sum_{i=1}^nx_i\equiv x$

CLT nói gì về quy trình này? Không có gì. Lưu ý, làm thế nào trong CLT chúng tôi đã bao giờ thay đổi , và nóthay đổiphân phốilà hội tụ đến mộtcố địnhphân phối $\sqrt n(\bar x_n-\mu)$ $f_n(x)$ $\mathcal{N}(0,\sigma^2)$

Trong thiết lập của bạn không phải là tổng và cũng không phân phối đang thay đổi! Chúng đã được sửa. Họ không thay đổi, họ không hội tụ bất cứ điều gì. Vì vậy, CLT không có gì để nói về họ. $x$ $f(x,\lambda)$

Ngoài ra, CLT không nói gì về số lượng phần tử trong tổng. Bạn có thể có tổng 1000 biến từ Poisson (0,001) và CLT sẽ không nói gì về tổng. Tất cả những gì nó nói là nếu bạn tiếp tục tăng N thì đến một lúc nào đó, tổng này sẽ bắt đầu giống như một phân phối bình thường . Trong thực tế, nếu N = 1.000.000, bạn sẽ có được xấp xỉ gần đúng với phân phối bình thường. $\frac{1}{N}\sum_{i=1}^N x_i, x_i\sim Poisson(0.001)$

Trực giác của bạn chỉ đúng về số lượng phần tử trong tổng, tức là hơn phân phối bắt đầu khác với bình thường, sau đó nhiều yếu tố bạn cần tổng hợp để trở lại bình thường. Cách trang trọng hơn (nhưng vẫn không chính thức) sẽ là bằng cách nhìn vào các chức năng đặc trưng của Poisson: Nếu bạn , bạn nhận được với việc mở rộng Taylor (wrt ) của số mũ lồng nhau:

\exp (λ (\exp (i t) - 1))

$\exp(\lambda (\exp(it)-1))$

λ >> 1

$\lambda>>1$

t

$t$

Đây là chức năng đặc trưng của phân phối chuẩn

\approx \exp (i λ t - λ / 2 t^{2})

$\approx\exp(i\lambda t-\lambda/2t^2)$

N (λ, λ^{2})

$\mathcal{N}(\lambda,\lambda^2)$

Tuy nhiên, trực giác của bạn không được áp dụng một cách chính xác: việc bạn thay thế tổng kết trong CLT với một số loại phân chia làm rối tung mọi thứ và khiến CLT không thể áp dụng được.

— Aksakal
nguồn

+1 Tài liệu ban đầu được diễn đạt độc đáo, rất rõ ràng và đi vào trọng tâm của vấn đề.

— whuber

The problem with your example is that you are allowing the parameters to change as $n$ changes. The CLT tells you that for a fixed distribution with a finite mean and sd, as $n \rightarrow \infty$ ,

$\frac {\sum x - \mu} {\sqrt n} \rightarrow_d N(0, \sigma)$ ,

where $\mu$ and $\sigma$ are from the mean and sd of the distribution of $x$ .

Of course, for different distributions (i.e. higher skewed for example), larger $n$ 's are required before the approximation derived from this theorem become reasonable. In your example, for $\lambda_m = 1/m$ , an $n >> m$ is required before the normal approximation is reasonable.

EDIT

There is discussion about how the CLT does not apply to sums, but rather to standardized sums (i.e. $\sum x_i / \sqrt n$ not $\sum x_i$ ). In theory, this is of course true: the unstandardized sum will have an undefined distribution in most cases.

However, in practice, you certainly can apply the approximation justified by the CLT to sums! If $F_{\bar x}$ can be approximated by a normal CDF for large $n$ , then certainly $F_{\sum x}$ can too, as multiplying by a scalar preserves normality. And you can see this right away in this problem: recall that if $X_i \sim Pois(\lambda)$ , then $Y = \sum_{i = 1}^n X_i \sim Pois(n\lambda)$ $\lambda$ $Pois(\lambda)$ $\mu = \lambda$ , $\sigma^2 = \lambda$ . So for any fixed $\lambda$ , we can approximate the CDF of $Y \sim Pois(n\lambda)$ fairly well with $\Phi( \frac{y - n\lambda}{\sqrt{n\lambda} })$ for a large enough $n$ if $\lambda > 0$ (approximation can trivially be applied if $\lambda = 0$ , but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.

— Cliff AB
nguồn

The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend on $n$ , say with parameter $\lambda_n$ and $\lambda_n = 1$ as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum $S_n = \sum_{i=1}^n X_{i,n}$ . After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on $n$ . It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of $X_{i, n}$ depends on $n$ in such a way that the parameter of the distribution of $S_n$ does not grow in $n$ . If you would instead have taken, for example, $S_n \sim Poi(n)$ and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a $Poi(\lambda_n)$ distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, $S_n \sim Poi(1)$ for all $n$ , so $S_n$ cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let $s_n^2 = \mathrm{Var(S_n)}$ . The Lindeberg-Feller condition is that, $\forall \epsilon >0$ :

\frac{1}{s_{n}^{2}} \sum_{i = 1}^{n} E [X_{i, n} - 1 / n]^{2} I (| X_{i, n} - 1 / n | > ϵ s_{n}) \to 0, n \to \infty

$\frac{1}{s_n^2}\sum_{i=1}^n\mathbb E[X_{i,n} - 1/n]^2I(\vert X_{i,n} - 1/n \vert >\epsilon s_n) \to 0,n\to\infty$

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in $n$ that $s_n = 1$ for every $n$ . For fixed $n$ , we also have that the $X_{i,n}$ are iid. Thus, the condition is equivalent to

n E [X_{1, n} - 1 / n]^{2} I (| X_{1, n} - 1 / n | > ϵ) \to 0.

$n\mathbb E[X_{1,n} - 1/n]^2I(\vert X_{1,n} - 1/n \vert >\epsilon) \to 0.$

But, for small $\epsilon$ and large $n$ ,

\begin{aligned} n E [X_{1, n} - 1 / n]^{2} I (| X_{1, n} - 1 / n | > ϵ) & > n ϵ^{2} P (X_{1, n} > 0) \\ = ϵ^{2} n [1 - e^{- 1 / n}] \\ = ϵ^{2} n [1 - (1 - 1 / n + o (1 / n))] \\ = ϵ^{2} + o (1), \end{aligned}

$\begin{align} n\mathbb E[X_{1,n} - 1/n]^2I(\vert X_{1,n} - 1/n \vert >\epsilon) &>n\epsilon^2P(X_{1,n}>0) \\ &=\epsilon^2n[1 - e^{-1/n}] \\ &= \epsilon^2n[1-(1 - 1/n + o(1/n))] \\ &= \epsilon^2 + o(1), \end{align}$

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of $S_n$ for every $n$ , but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in $n$ you could have the condition hold.

— ekvall
nguồn

+1 This nicely illuminates a comment by @AlexR to the question, too.

— whuber