Trực giác hiểu tại sao phân phối Poisson là trường hợp giới hạn của phân phối nhị thức


14

Trong "Phân tích dữ liệu" của DS Sivia, có một dẫn xuất của phân phối Poisson, từ phân phối nhị thức.

Họ cho rằng sự phân bố Poisson là trường hợp hạn chế của phân phối nhị thức khi M , nơi M là số các phép thử.

Câu 1: Làm thế nào để lập luận đó bằng trực giác có thể hiểu được?

Câu 2: Tại sao giới hạn lớn Mcủa M!N!(MN)!bằngMNN!, trong đóNlà số lần thành công trongcác thử nghiệmM? (Bước này được sử dụng trong đạo hàm.)


Câu trả lời:


5

Tôi sẽ thử một lời giải thích trực quan đơn giản. Ghi lại rằng với biến ngẫu nhiên nhị thức XBin(n,p) chúng ta có kỳ vọng là np và phương sai là np(1p) . Bây giờ nghĩ rằng X ghi lại số sự kiện trong một số lượng rất lớn n các thử nghiệm, mỗi với một xác suất rất nhỏ p , như vậy chúng tôi rất gần gũi với 1p=1 (thực sự ). Sau đó, chúng ta có np=λ say, vànp(1p)np1=λ , vì vậy giá trị trung bình và phương sai đều tương đương vớiλ . Sau đó, hãy nhớ rằng đối với một biến ngẫu nhiên phân phối poisson, chúng ta luôn có giá trị trung bình và phương sai bằng nhau! Đó là ít nhất là một đối số hợp lý cho xấp xỉ poisson, nhưng không phải là một bằng chứng.

Sau đó nhìn vào nó từ một quan điểm khác, quá trình điểm poisson https://en.wikipedia.org/wiki/Poisson_point_ process trên dòng thực. Đây là phân phối điểm ngẫu nhiên trên dòng mà chúng ta nhận được nếu điểm ngẫu nhiên xảy ra theo quy tắc:

  1. các điểm trong các khoảng khác nhau là độc lập
  2. xác suất của một điểm ngẫu nhiên trong một khoảng rất ngắn tỷ lệ thuận với độ dài của khoảng
  3. xác suất hai hoặc nhiều điểm trong một khoảng thời gian rất ngắn về cơ bản là bằng không.

Khi đó phân bố số lượng điểm trong một khoảng nhất định (không nhất thiết phải ngắn) là Poisson (với tham số λ tỷ lệ với chiều dài). Bây giờ, nếu chúng ta chia khoảng thời gian này thành rất nhiều, các khoảng thời gian rất ngắn bằng nhau ( n ), xác suất của hai hoặc nhiều điểm trong một khoảng thời gian con nhất định về cơ bản là bằng 0, do đó, số đó sẽ có, với một xấp xỉ rất tốt, phân phối bernolli, nghĩa là Bin(1,p) , do đó tổng của tất cả những thứ này sẽ là Bin(n,p) , do đó, một xấp xỉ tốt của phân phối poisson số lượng điểm trong khoảng (dài) đó.

Chỉnh sửa từ @Ytsen de Boer (OP): câu hỏi số 2 được trả lời thỏa đáng bởi @ ukasz Grad.


6

Hãy để tôi cung cấp một heuristic thay thế. Tôi sẽ trình bày cách làm gần đúng quy trình Poisson dưới dạng nhị thức (và cho rằng phép tính gần đúng sẽ tốt hơn cho nhiều thử nghiệm với xác suất thấp). Do đó, phân phối nhị thức phải có xu hướng phân phối Poisson.

Giả sử các sự kiện đang diễn ra với tốc độ không đổi theo thời gian. Chúng tôi muốn biết sự phân bố của bao nhiêu sự kiện đã xảy ra trong một ngày, biết rằng số lượng dự kiến của các sự kiện là λ .

Vâng, số lượng dự kiến của các sự kiện mỗi giờ là λ/24 . Hãy giả vờ rằng điều này có nghĩa là xác suất của một sự kiện xảy ra trong một giờ nhất định là λ/24 . [nó không hoàn toàn đúng, nhưng nó là một xấp xỉ phong nha nếu λ/241 về cơ bản nếu chúng ta có thể giả định nhiều sự kiện không xảy ra trong cùng một giờ]. Sau đó, chúng ta có thể tính gần đúng phân phối số lượng sự kiện dưới dạng nhị thức với M=24 thử nghiệm, mỗi thử nghiệm có xác suất thành công λ/24 .

We improve the approximation by switching our interval to minutes. Then it's p=λ/1440 with M=1440 trials. If λ is around, say 10, then we can be pretty confident that no minute had two events.

Tất nhiên sẽ tốt hơn nếu chúng ta chuyển sang giây. Bây giờ chúng tôi đang xem M=86400 events each with the small probability λ/86400.

Không có vấn đề lớn như thế nào bạn λ là, tôi thậm chí có thể chọn một nhỏ đủ Δt như vậy mà nó rất có khả năng là không có hai sự kiện xảy ra trong khoảng thời gian tương tự. Sau đó, sự phân bố nhị thức tương ứng với Δt sẽ là một trận đấu tuyệt vời để phân phối Poisson đúng.

Lý do duy nhất chúng không giống hệt nhau là có một xác suất khác không rằng hai sự kiện xảy ra trong cùng một khoảng thời gian. Nhưng với chỉ có khoảng λ sự kiện và chúng được phân phối vào một số số thùng nhiều hơn λ , nó không chắc rằng bất kỳ hai trong số họ nằm trong thùng rác cùng.

Hay nói cách khác, sự phân bố nhị thức có xu hướng phân phối Poisson như M nếu xác suất thành công là p=λ/M .


5

Câu hỏi 1

Nhắc lại định nghĩa của phân phối nhị thức:

phân phối tần suất của số lượng kết quả thành công có thể có trong một số thử nghiệm nhất định trong mỗi thử nghiệm có cùng xác suất thành công.

So sánh điều này với định nghĩa của phân phối Poisson:

phân phối tần số riêng biệt đưa ra xác suất của một số sự kiện độc lập xảy ra trong một cố định thời gian .

Sự khác biệt đáng kể giữa 2 là nhị thức trong thử nghiệm, Poisson trong khoảng thời gian t . Làm thế nào giới hạn có thể xảy ra bằng trực giác?nt

Hãy nói rằng bạn phải tiếp tục chạy thử nghiệm Bernoulli mãi mãi. Hơn nữa, bạn chạy mỗi phút. Mỗi phút bạn đếm từng thành công. Vì vậy, mãi mãi bạn đang chạy một quy trình B i n ( p , 30 ) mỗi phút. Trong vòng 24 giờ, bạn có B i n ( p , 43200 )n=30Bin(p,30)Bin(p,43200) .

Khi bạn cảm thấy mệt mỏi, bạn được hỏi "có bao nhiêu thành công xảy ra trong khoảng thời gian từ 18:00 đến 19:00?". Câu trả lời của bạn có thể là , tức là bạn cung cấp những thành công trung bình trong một giờ. Đó là âm thanh rất giống các tham số Poisson λ với tôi.3060pλ


5

Question 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

So taking the limit for fixed N

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1

+1. I started by looking at Stirling's approximation, but started running round in circles. You're approach is much simpler.

I dont think this is what the OP will find intuitive ...
kjetil b halvorsen

@kjetilbhalvorsen I tried to use simplest math possible, intuitively for large M we have MMk for fixed k<<M
Łukasz Grad

1
@kjetilbhalvorsen This is an answer to Q2 (derivation step), not Q1 (intuitive explanation)
Ben Bolker

@TemplateRex Hmm but I think when proving pointwise convergence I only need to prove it for every fixed N, as M goes to infiity, isn't it? That is ωΩlimmXm(ω)X(ω)
Łukasz Grad

5

The problem is that your characterization of the Poisson as a limiting case of the binomial distribution is not quite correct as stated.

The Poisson is a limiting case of the binomial when:

MandMpλ.
The second part is important. If p remains fixed, the first condition implies that the rate will also increase without bound.

What the Poisson distribution assumes is that events are rare. What we mean by "rare" is not that the rate of events is small--indeed, a Poisson process may have a very high intensity λ--but rather, that the probability of an event occurring at any instant in time [t,t+dt) is vanishingly small. This is in contrast to a binomial model where the probability p of an event (e.g. "success") is fixed for any given trial.

To illustrate, suppose we model a series of M independent Bernoulli trials each with probability of success p, and we look at what happens to the distribution of the number of successes X as M. For any N as large as we please, and no matter how small p is, the expected number of successes E[X]=Mp>N for M>N/p. Put another way, no matter how unlikely the probability of success, eventually you can achieve an average number of successes as large as you please if you perform sufficiently many trials. So, M (or, just saying "M is large") is not enough to justify a Poisson model for X.

It is not difficult to algebraically establish

Pr[X=x]=eλλxx!,x=0,1,2,
as a limiting case of
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
by setting p=λ/M and letting M. Other answers here have addressed the intuition behind this relationship and provided computational guidance as well. But it is important that p=λ/M. You can't ignore this.

0

I can only attempt a part answer and it is about the intuition for Question 2, not a rigorous proof.

The binomial coefficient gives you the number of samples of size N, from M, without replacement and without order.

Here though M becomes so large that you may approximate the scenario as sampling with replacement in which case you get MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects can be ordered in N! ways.


-2

Balls falling through layers of pegs

I think this is the best example that intuitively explains how binomial distribution converges to normal with large number of balls. Here, each ball has equal probability of falling on either side of the peg in each layer and all the balls have to face same number of pegs. It can be easily seen that as the number of balls goes very high the distribution of balls in different sections will be like normal distribution.

My answer to your question 2 is same as the answer given by Lukasz.


2
This isn't really answering the question, it answers another question ...
kjetil b halvorsen

I have tried to intuitively explain what asked in question 1. Can you please elaborate why you think it is not an answer to it?
samwise_the_wise

1
Sorry, I got the point now. I answered a completely different question. My bad.
samwise_the_wise

1
I see a heavily discretized version of a binomial distribution. Why should it be obvious that the distribution of balls at the bottom of this quincunx should be normal? Regardless of how many balls you drop through this machine, you will still get a distribution of counts in 13 bins: that cannot possibly be normal!
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.