Ước tính các tham số cho một nhị thức


8

Trước hết tôi muốn chính xác rằng tôi không phải là một chuyên gia về chủ đề này.

Giả sử có hai biến ngẫu nhiên và là nhị thức, lần lượt là và lưu ý ở đây rằng giống nhau. Tôi biết rằngXYXB(n1,p)YB(n2,p),pZ=X+YB(n1+n2,p).

Đặt là mẫu cho và là mẫu cho , có phương pháp chuẩn nào để ước tính và không?{x1,,xk}X{y1,,yk}Yn=n1+n2p

Đây là những gì chúng tôi đã làm:

  1. lấy "mẫu mới" cho được cung cấp bởi ,Z{x1+y1,,xk+yk}
  2. bằng cách sử dụng Công cụ ước tính khả năng, chúng tôi có được ước tính cho và ,np
  3. với thông tin của Fisher, chúng tôi cố gắng hiểu các lỗi trên và .np

Phương pháp này có vẻ hiệu quả, nhưng chúng tôi vẫn có một số nghi ngờ. Đặt nhóm hoán vị trên phần tử. Với mỗi chúng ta có thể xem xét "mẫu" được cung cấp bởiÁp dụng Công cụ ước tính khả năng cho từng một trong các "mẫu mới" (có khác nhau), chúng tôi thu được ước tính khác nhau cho và .SkkσSk{x1+yσ(1),,xk+yσ(k)}.k!(nσ,pσ)np

Ý nghĩa của việc này là gì? Làm thế nào để các giá trị mới tương quan với nhau? Nó có thể được sử dụng để tính toán lỗi cho ?nσ,pσn

Một số Nhận xét: Câu hỏi đã được đăng trước đây tại đây , nhưng một người dùng đề nghị tôi sử dụng tats / crossvalidated SE.

Trong ví dụ mà tôi có trong đầu là số lượng chim trong một khu vực nhất định và xác suất hiển thị. Tôi cần tổng hợp các vùng có tương tự , nếu không dữ liệu quá nhỏ. Đặc biệt tôi cần, nếu có thể, một ước tính chỉ dành cho , trong đó a prori chưa được biếtp p n pnppnp

Một ví dụ Để rõ ràng và theo quan điểm về câu trả lời của kjetil b halvorsen, tôi sẽ cố gắng đưa ra đây một ví dụ thực tế. Giả sử rằng chúng ta chỉ có một vùng được chia thành hai vùng có xác suất bằng một cố định và dữ liệu của chúng tôi như sau:p

Zone 1   Zone 2
  a1      b1
  a2      b2
  a3      b3
  a4      b4
  a5      b5
  a6      b6

Sau đó chúng ta có thể xem xét điều này:

Zone 1+2
c1=a1+b1
c2=a2+b2
c3=a3+b3
   c4
   c5
   c6

Sau đó, chúng ta có thể sử dụng phương pháp loglikabilities để ước tính và trong đó là tham số cho nhị thức của các biến quan sát trong Vùng . Đúng không? p N i iN1+N2pNii

Bây giờ, tôi biết rằng phương pháp khả năng không ổn định (đối với tôi ổn định chỉ có nghĩa là tốt). Chúng ta có thể sử dụng thông tin của Fisher không? Nếu có, loại thông tin nào chúng ta có thể có?

Cuối cùng, hãy là và hai hoán vị trên phần tử (có cặp khác nhau) hơn chúng ta có thể xem xét dữ liệu mới được cung cấp bởiτ 6 ( 6 ! ) 2στ6(6!)2

Vùng 1 + 2
c1 = a + b c2 = a + b c3 = a + b c4 = a + b c5 = a + b c6 = a + bτ ( 1 ) σ ( 2 ) τ ( 2 ) σ ( 3 ) τ ( 3 ) σ ( 4 ) τ ( 4 ) σ ( 5 ) τ ( 5 ) σ ( 6 ) τ ( 6 )σ(1)τ(1)
σ(2)τ(2)
σ(3)τ(3)
σ(4)τ(4)
σ(5)τ(5)
σ(6)τ(6)

Làm lại phương pháp khả năng, với các biến mới này, chúng tôi có được các ước tính khác nhau cho .N1+N2

Vì vậy, câu hỏi là: bộ ước tính có cung cấp cho tôi một số thông tin về các lỗi không?


Bạn nên cung cấp thêm một số chi tiết. Bạn muốn sử dụng bao nhiêu vùng (giả sử có cùng tham số hiển thị ? (Q giả định hai))? Bạn có bao nhiêu mẫu cho mỗi vùng? (Tôi giả sử đó là những tội qua những khoảng thời gian rời nhau chiều dài bằng nhau?) Kể từ khi thông số quan tâm của bạn là và cách tiếp cận của họ tổng hợp không thể là đúng! sẽ quay lại khi bạn đã trả lời ...n 1 n 2pn1n2
kjetil b halvorsen

@kjetilbhalvorsen: Số vùng trong Q của tôi là và tôi có 6 mẫu cho mỗi vùng. Tổng số trên các khoảng có độ dài bằng nhau (nhưng được giả sử là không đổi). Tôi quan tâm đến và không phải trong duy nhất . Tôi hy vọng điều này có thể giúp đỡ. n i n 1 + n 2 n i2nin1+n2ni
amorvincomni

Một câu hỏi khác: Số lượng lớn (xấp xỉ) là bao nhiêu? Trong hàng chục? hàng trăm? hàng ngàn? Bạn có biết gì về giá trị có thể xảy ra của không? Rất thấp? (Nếu số lượng lớn hơn, thì có lẽ chúng ta có thể thử xấp xỉ poisson?p
kjetil b halvorsen

Tôi đã cố gắng tổng hợp số lượng vì số lượng thấp. Trong thực tế, tôi có 5 vùng khác nhau (một vùng tương ứng với các vùng có cùng xác suất.) Trong mỗi vùng tôi có vùng. Số lượng khác nhau thay đổi từ đến ( dường như không liên quan và có thể thay đổi từ đến một cái gì đó nhiều hơn ). Nhưng dữ liệu tổng hợp có thể thay đổi từ hoán vị mà chúng ta chọn. (Ví dụ: trong một vùng gồm vùng với số đếm cho mỗi vùng có các tập hợp khác nhau). Cuối cùng dường như gần với . 0 25 n i 0 25 10 6 ( 6 ! ) 10 trang .715025ni025106(6!)10p.7
amorvincomni

2
Bạn cũng có thể sẽ được hưởng lợi rất nhiều từ việc có các linh mục thông tin, vì có một vấn đề nhận dạng giữa n và p.
Arthur B.

Câu trả lời:


12

Tôi sẽ thử một câu trả lời, ngay cả khi tôi không hoàn toàn rõ ràng về tình huống. Công thức sẽ phải được điều chỉnh! Vấn đề ước tính N trong phân phối nhị thức đã cũ và có nhiều giấy tờ liên quan. Tôi sẽ đưa ra một số tài liệu tham khảo ở cuối.

Đặt các vùng R (trong ví dụ OP R=2 ), với các mẫu T (từ các khoảng thời gian khác nhau có độ dài bằng nhau) từ mỗi vùng. Các biến quan sát là xit là các biến ngẫu nhiên nhị thức độc lập, mỗi biến có Bin(Ni,p) phân phối ( N i , p ) đều chưa biết. Hàm khả năng đăng nhập trở thành Lưu ý rằng, trong vấn đề thông thường khi được biết đến nên chỉ có

(Ni,p)=ln(Nixit)+lnpxit+ln(1p)(Nixit)
Nipkhông xác định, khi đó tổng (hoặc giá trị trung bình) của số nhị thức là một bản tóm tắt đầy đủ, do đó việc phân tích có thể được thực hiện dưới dạng phân phối nhị thức của tổng. Tuy nhiên, trong vấn đề của chúng tôi, do thuật ngữ đầu tiên trong hàm khả năng đăng nhập, đó không phải là trường hợp và khả năng nhật ký phụ thuộc vào từng số lượng riêng lẻ! Vì vậy, những gì bạn đề xuất, để giảm xuống tổng số đếm (hơn ), KHÔNG NÊN LÀM, vì điều đó sẽ làm mất thông tin (tôi không biết bao nhiêu, nhưng điều đó có thể được điều tra ...). Hãy để chúng tôi cố gắng để hiểu điều này tốt hơn một chút. Đầu tiên, chúng ta thấy bên dưới rằng là một công cụ ước tính nhất quán củaxitimaxt(xit)Ni, nhưng công cụ ước tính nhất quán này không phải là một hàm của tổng số tổng. Đó là một dấu hiệu rõ ràng rằng tổng kết mất thông tin! Cũng lưu ý rằng giá trị trung bình là một công cụ ước tính không thiên vị về kỳ vọng của nó là , nhưng dường như không lưu giữ thông tin về và riêng lẻ, khi không biết gì về tham số khác. Điều đó chỉ ra rằng nếu có thông tin hữu ích về trong hàm khả năng, thì điều đó phải được chứa trong sự lan truyền của các giá trịNipNipNixi1,xiT x i 1 Lối , x i T, một lần nữa chỉ ra rằng tổng kết là xấu. Bài báo của Olkin et al được tham khảo dưới đây cho thấy thực sự rằng công cụ ước tính phương pháp trong nhiều trường hợp tốt hơn khả năng tối đa! và sử dụng phương sai theo kinh nghiệm của , do đó không thể tính được từ dữ liệu tổng hợp.xi1,xiT

Vấn đề này được biết là không ổn định. Hãy để chúng tôi cố gắng để hiểu tại sao. Trong bài toán thông thường, ước tính khi , việc ước tính có thể được thực hiện từ một số đặc tính tổng của dữ liệu, giá trị trung bình. Khi cố gắng ước tính cả và , chúng tôi sử dụng nhiều thuộc tính tốt hơn của hàm khả năng đăng nhập (do đó là dữ liệu). Để xem tại sao, hãy nhớ rằng chúng ta có thể có được phân phối Poisson dưới dạng giới hạn của nhị thức khi về 0 và tăng trưởng không giới hạn, với sản phẩm dương không đổi. Vì vậy, nếu nhỏ vàpNiNipp N p N N = 100 , p = 0,01 N = 20 , p = 0,05pNpNlớn, phân phối nhị thức sẽ khá gần với giới hạn đó. Lấy hai trường hợp: (A) , (B) . Vẽ biểu đồ cho hai bản phân phối (nhị thức):N=100,p=0.01N=20,p=0.05

> zapsmall(cbind(0:20,pA,pB))
               pA       pB
 [1,]  0 0.366032 0.358486
 [2,]  1 0.369730 0.377354
 [3,]  2 0.184865 0.188677
 [4,]  3 0.060999 0.059582
 [5,]  4 0.014942 0.013328
 [6,]  5 0.002898 0.002245
 [7,]  6 0.000463 0.000295
 [8,]  7 0.000063 0.000031
 [9,]  8 0.000007 0.000003
[10,]  9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000

Trên bảng xác suất này. Để phát hiện từ dữ liệu quan sát mà hai bản phân phối này có, đó là những gì cần quyết định, trong trường hợp này, nếu hoặc nếu . Nó rõ ràng là khá khó khăn, và sự không ổn định của các công cụ ước tính kết quả chỉ được dự kiến. Ví dụ này cũng chỉ ra rằng sự không ổn định chủ yếu dành cho nhỏ . Bạn nói rằng bạn mong đợi khoảng 0,7, vì vậy vấn đề có thể ổn định hơn sau đó. Bạn có thể điều tra dữ liệu đó bằng cách tìm công cụ ước tính khả năng tối đa là hàm của biết và vẽ đồ thị choN=100N=20pppptrong một số khoảng tin cậy Hoặc bạn có thể đi Bayes đầy đủ, đây là trường hợp thậm chí một số thông tin trước đây khá mơ hồ có thể hữu ích.

Các thông số thực sự có thể ước tính. Rõ ràng là , vì vậy nó có thể sử dụng mà đếm tối đa như là một ước của . Công cụ ước tính đó sẽ rất phù hợp và một tham số với công cụ ước tính nhất quán phải được ước tính. Nhưng, như ví dụ trên cho thấy, khả năng ước tính gần như là một hình thức; trong thực tế phân phối với rất khác nhau rất gần nhau, vì vậy rất yếu.Nimaxt(xit)NNN

Tôi sẽ không cung cấp chi tiết về các phương pháp ước tính ở đây, nhưng cung cấp một vài tài liệu tham khảo mà bạn có thể kiểm tra:

Ingram Olkin, A John Petkau, James V Zidek: So sánh các công cụ ước tính N cho Phân phối nhị thức. JASA 1981. Đây là một bài báo cổ điển phát triển và phân tích ML và các công cụ ước tính thời điểm, và một số biến thể đâm. Điều thú vị là, trong nhiều trường hợp, công cụ ước tính phương pháp khoảnh khắc tốt hơn công cụ ước tính ML!

Raymond J Carrol và F Lombard: Một lưu ý về N ước tính cho phân phối nhị thức. JASA 1985.
Phát triển một công cụ thay thế, stabler & có thể tốt hơn, dựa trên việc tích hợp ngoài khả năng. Cũng lưu ý sự thiếu đầy đủ của tổng số đếm.p

J Andrew Royle: Các mô hình N_Mixture để ước tính kích thước dân số từ số lượng nhân rộng không gian. Biometrics, 2004. Điều này mang đến một cách tiếp cận Bayes khác, mà bạn có thể thử.

Quay lại câu hỏi cụ thể của bạn. Bạn KHÔNG NÊN tổng số đếm trên hai khu vực của bạn! Điều đó sẽ mất thông tin. Nếu bạn giới thiệu thì hàm khả năng đăng nhập có thể được viết dưới dạng hàm của , và (hoặc ). Sau đó, tham số bổ sung nên được loại bỏ bằng một số thủ tục. Tôi sẽ trở lại với điều đó, nhưng không có không có thời gian! N=N1+N2NpN1N2N1


1
Cảm ơn câu trả lời của bạn, tiếc là tôi không thể upvote. Tôi xin lỗi nếu tôi không rõ ràng, nhưng đối với tổng số tôi có nghĩa là tổng số trên các khu vực khác nhau. Tôi đã thực hiện nâng cấp trong Q của mình, thêm một ví dụ (lý thuyết) và một số câu hỏi có thể dễ hiểu hơn.
amorvincomni

1
Mặc dù câu trả lời này là chi tiết đầy đủ, tôi vẫn có một nghi ngờ: giả sử rằng tôi có một camera cho mỗi vùng và giả sử rằng các camera nằm ở các vùng lân cận (nhưng không có dòng chảy). Tôi chỉ quan tâm đến và không quan tâm đến các giá trị đơn và . Có sự khác biệt bằng cách chỉ lấy một máy ảnh lớn? Các biến quan sát của máy ảnh lớn vẫn là nhị thức với tham sốNhững gì tôi mất (dường như với tôi), chỉ là thông tin về hành vi địa phương, nhưng điều này không quan trọng đối với tôi. N 1 N 2 y t 1 = x t 1 + x t 2 N , p .NN1N2yt1=xt1+xt2N,p.
amorvincomni

1
Đó là không đúng! Thông tin về được chứa trong các biến thể trong số lượng cá nhân! N
kjetil b halvorsen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.