Xấp xỉ bình thường cho phân phối Poisson


12

Ở đây trong Wikipedia có ghi:

Đối với các giá trị đủ lớn của λ , (nói λ>1000 ), phân phối chuẩn với trung bình λ và phương sai λ (độ lệch chuẩn λ ), là một xấp xỉ tuyệt vời để phân phối Poisson. Nếuλlớn hơn khoảng 10, sau đó phân phối chuẩn là một xấp xỉ tốt nếu một chỉnh liên tục thích hợp được thực hiện, tức làP(Xx),nơi (giảm hợp cụ thể)xlà một số nguyên không âm, được thay thế bằngP(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

Thật không may, điều này không được trích dẫn. Tôi muốn có thể thể hiện / chứng minh điều này với một số nghiêm ngặt. Làm thế nào bạn thực sự có thể nói phân phối bình thường là một xấp xỉ tốt khi λ>1000 , làm thế nào để bạn định lượng xấp xỉ 'xuất sắc' này, những biện pháp nào đã được sử dụng?

Lần đầu tiên tôi gặp phải là ở đây , nơi John nói về việc sử dụng định lý Berry mật Esseen và xấp xỉ lỗi trong hai CDF. Từ những gì tôi có thể thấy anh ta không thử bất kỳ giá trị của λ1000 .


6
Bạn không thể chứng minh điều đó mà không định nghĩa 'tốt'. (Bạn có thể chứng minh một kết quả tiệm cận, nhưng bạn không thể tuyên bố nó là 'tốt' ở một cỡ mẫu cụ thể mà không xác định tiêu chí của bạn.) Bạn có thể chứng minh hành vi của nó bằng ví dụ trực tiếp (từ đó mọi người có thể thấy mức độ 'tốt' tốt như thế nào là bởi ánh sáng của riêng họ). Đối với các tiêu chí điển hình mà mọi người có xu hướng sử dụng, một hiệu chỉnh liên tục hoạt động tốt cho miễn là bạn không đi sâu vào đuôi. λ>10
Glen_b -Reinstate Monica

1
(Để có nhiều đặc biệt, nếu tiêu chí của bạn là sai số tuyệt đối, bạn có thể có khả năng đạt được 'tốt' ở khắp mọi nơi với kích thước mẫu nhỏ như 10, nhưng hầu hết mọi người quan tâm đến một cái gì đó gần với sai số tương đối)
Glen_b -Reinstate Monica

Câu trả lời:


7

XλYλPr ( Y [ n - 1Pr(X=n)n=λ+alphaPr(Y[n12,n+12]) nαn=λ+αλnα

Thế là tôi lừa. Tôi đã sử dụng Mathicala. Vì vậy, cả và đều không có triệu chứng với dưới dạng . Nhưng sự khác biệt của chúng là không có triệu chứng với Nếu bạn vẽ biểu đồ này như là một hàm của , bạn sẽ có cùng một đường cong như được hiển thị trong hình thứ hai đến hình cuối cùng trong http://www.johndcook.com/blog/n normal_approx_to_poisson / .Pr ( Y [ n - 1Pr(X=n)1Pr(Y[n12,n+12])bước sóngα(α2-3)e-α2/2

12πλeα2/2
λalpha
α(α23)eα2/262πλ
α

Dưới đây là các lệnh tôi đã sử dụng:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

Ngoài ra, với một chút thử nghiệm, đối với tôi, dường như một phép tính gần đúng tiệm cận tốt hơn với là . Sau đó, lỗi là nhỏ hơn khoảng lần.Pr ( Y [ n - α 2 / 6 , n + 1 - α 2 / 6 ] ) - ( 5 α 4 - 9 α 2 - 6 ) e - α 2 / 2Pr(X=n)Pr(Y[nα2/6,n+1α2/6])

(5α49α26)eα2/2722πλ3/2
λ

2

Glen_b đúng ở chỗ "phù hợp tốt" là một quan niệm rất chủ quan. Tuy nhiên, nếu bạn muốn xác minh rằng phân phối poisson của mình là hợp lý bình thường, bạn có thể sử dụng thử nghiệm Kolmorgov-Smirnov giả định với giả thuyết null là CDF đến từ phân phối , giả sử mẫu của bạn sẽ đến từ một poisson ( ). Vì bạn không thực sự kiểm tra một mẫu, nhưng một phân phối so với phân phối khác, bạn cần suy nghĩ cẩn thận về kích thước mẫu và mức ý nghĩa mà bạn giả định cho thử nghiệm giả thuyết này (vì chúng tôi không sử dụng thử nghiệm KS theo cách thông thường). Đó là:N ( λ , λ ) λH0:N(λ,λ)λ

  • Chọn một đại diện, cỡ mẫu giả thuyết, n và điều chỉnh mức ý nghĩa của thử nghiệm thành một giá trị điển hình, ví dụ: 5%.

Bây giờ, hãy tính tỷ lệ lỗi Loại II cho thử nghiệm này với giả định dữ liệu của bạn thực sự đến từ một poisson ( ). Mức độ phù hợp của bạn với phân phối bình thường sẽ là tỷ lệ lỗi Loại II này, theo nghĩa là các mẫu có kích thước n từ phân phối poisson cụ thể của bạn, trung bình, sẽ được chấp nhận % thời gian bằng cách kiểm tra tính quy tắc của KS khi bạn chọn mức độ đáng kể.βλβ

Dù sao, đó chỉ là một cách để có được cảm giác "lòng tốt của sự phù hợp". Tuy nhiên, tất cả đều dựa vào một số quan niệm chủ quan về "lòng tốt" mà bạn sẽ phải tự xác định.


2

Nguồn gốc từ phân phối nhị thức có thể giúp bạn hiểu rõ hơn.

Chúng ta có một biến ngẫu nhiên nhị thức;

p(x)=(nx)px(1p)nx

Điều này có thể thay thế được tính toán đệ quy;

p(x)=(nx+1)px(1p)p(x1)

Nếu bạn giữ điều kiện ban đầu;

p(0)=(1p)n

Bây giờ chúng ta hãy giả sử rằng lớn và nhỏ nhưng thành công trung bình của là không đổi . Sau đó chúng ta có thể làm như sau;npp(x)(np=λ)

P(X=i)=(ni)px(1p)nx

Chúng tôi sử dụng .p=λ/n

P(X=i)=n!(ni)!i!(λn)i(1λn)ni

Chúng tôi chuyển một số biến xung quanh và đánh giá;

P(X=i)=n(n1)(n2)(ni+1)niλii!(1λn)n(1λn)i

Từ phép tính, chúng ta biết rằng . Chúng ta cũng biết rằng vì cả đỉnh và đáy đều là đa thức bậc .limn(1+x/n)n=ex[n(n1)(n2)(ni+1)]/ni1i

Điều này dẫn đến kết luận là :n

P(X=i)eλλii!

Sau đó, bạn có thể xác minh rằng và thông qua định nghĩa. Chúng tôi biết rằng phân phối nhị thức xấp xỉ bình thường theo các điều kiện của Định lý De Moivre-Laplace miễn là bạn sửa cho tính liên tục, đó là lý do tại sao được thay thế bằng .E(X)=λVar(X)=λP ( X x ) P ( X x + 0,5 )P(Xx)P(Xx+0.5)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.