Tôi sẽ thử một câu trả lời, ngay cả khi tôi không hoàn toàn rõ ràng về tình huống. Công thức sẽ phải được điều chỉnh! Vấn đề ước tính N trong phân phối nhị thức đã cũ và có nhiều giấy tờ liên quan. Tôi sẽ đưa ra một số tài liệu tham khảo ở cuối.
Đặt các vùng R (trong ví dụ OP R=2 ), với các mẫu T (từ các khoảng thời gian khác nhau có độ dài bằng nhau) từ mỗi vùng. Các biến quan sát là xit là các biến ngẫu nhiên nhị thức độc lập, mỗi biến có Bin(Ni,p) phân phối ( N i , p ) đều chưa biết. Hàm khả năng đăng nhập trở thành
Lưu ý rằng, trong vấn đề thông thường khi được biết đến nên chỉ cóℓ(Ni,p)=∑ln(Nixit)+lnp⋅∑xit+ln(1−p)⋅∑(Ni−xit)
Nipkhông xác định, khi đó tổng (hoặc giá trị trung bình) của số nhị thức là một bản tóm tắt đầy đủ, do đó việc phân tích có thể được thực hiện dưới dạng phân phối nhị thức của tổng. Tuy nhiên, trong vấn đề của chúng tôi, do thuật ngữ đầu tiên trong hàm khả năng đăng nhập, đó không phải là trường hợp và khả năng nhật ký phụ thuộc vào từng số lượng riêng lẻ! Vì vậy, những gì bạn đề xuất, để giảm xuống tổng số đếm (hơn ), KHÔNG NÊN LÀM, vì điều đó sẽ làm mất thông tin (tôi không biết bao nhiêu, nhưng điều đó có thể được điều tra ...). Hãy để chúng tôi cố gắng để hiểu điều này tốt hơn một chút. Đầu tiên, chúng ta thấy bên dưới rằng là một công cụ ước tính nhất quán củaxitimaxt(xit)Ni, nhưng công cụ ước tính nhất quán này không phải là một hàm của tổng số tổng. Đó là một dấu hiệu rõ ràng rằng tổng kết mất thông tin! Cũng lưu ý rằng giá trị trung bình là một công cụ ước tính không thiên vị về kỳ vọng của nó là , nhưng dường như không lưu giữ thông tin về và riêng lẻ, khi không biết gì về tham số khác. Điều đó chỉ ra rằng nếu có thông tin hữu ích về trong hàm khả năng, thì điều đó phải được chứa trong sự lan truyền của các giá trịNipNipNixi1…,xiT x i 1 Lối , x i T, một lần nữa chỉ ra rằng tổng kết là xấu. Bài báo của Olkin et al được tham khảo dưới đây cho thấy thực sự rằng công cụ ước tính phương pháp trong nhiều trường hợp tốt hơn khả năng tối đa! và sử dụng phương sai theo kinh nghiệm của , do đó không thể tính được từ dữ liệu tổng hợp.xi1…,xiT
Vấn đề này được biết là không ổn định. Hãy để chúng tôi cố gắng để hiểu tại sao. Trong bài toán thông thường, ước tính khi , việc ước tính có thể được thực hiện từ một số đặc tính tổng của dữ liệu, giá trị trung bình. Khi cố gắng ước tính cả và , chúng tôi sử dụng nhiều thuộc tính tốt hơn của hàm khả năng đăng nhập (do đó là dữ liệu). Để xem tại sao, hãy nhớ rằng chúng ta có thể có được phân phối Poisson dưới dạng giới hạn của nhị thức khi về 0 và tăng trưởng không giới hạn, với sản phẩm dương không đổi. Vì vậy, nếu nhỏ vàpNiNipp N p N N = 100 , p = 0,01 N = 20 , p = 0,05pNpNlớn, phân phối nhị thức sẽ khá gần với giới hạn đó. Lấy hai trường hợp: (A) , (B) . Vẽ biểu đồ cho hai bản phân phối (nhị thức):N=100,p=0.01N=20,p=0.05
> zapsmall(cbind(0:20,pA,pB))
pA pB
[1,] 0 0.366032 0.358486
[2,] 1 0.369730 0.377354
[3,] 2 0.184865 0.188677
[4,] 3 0.060999 0.059582
[5,] 4 0.014942 0.013328
[6,] 5 0.002898 0.002245
[7,] 6 0.000463 0.000295
[8,] 7 0.000063 0.000031
[9,] 8 0.000007 0.000003
[10,] 9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000
Trên bảng xác suất này. Để phát hiện từ dữ liệu quan sát mà hai bản phân phối này có, đó là những gì cần quyết định, trong trường hợp này, nếu hoặc nếu . Nó rõ ràng là khá khó khăn, và sự không ổn định của các công cụ ước tính kết quả chỉ được dự kiến. Ví dụ này cũng chỉ ra rằng sự không ổn định chủ yếu dành cho nhỏ . Bạn nói rằng bạn mong đợi khoảng 0,7, vì vậy vấn đề có thể ổn định hơn sau đó. Bạn có thể điều tra dữ liệu đó bằng cách tìm công cụ ước tính khả năng tối đa là hàm của biết và vẽ đồ thị choN=100N=20pppptrong một số khoảng tin cậy Hoặc bạn có thể đi Bayes đầy đủ, đây là trường hợp thậm chí một số thông tin trước đây khá mơ hồ có thể hữu ích.
Các thông số thực sự có thể ước tính. Rõ ràng là , vì vậy nó có thể sử dụng mà đếm tối đa như là một ước của . Công cụ ước tính đó sẽ rất phù hợp và một tham số với công cụ ước tính nhất quán phải được ước tính. Nhưng, như ví dụ trên cho thấy, khả năng ước tính gần như là một hình thức; trong thực tế phân phối với rất khác nhau rất gần nhau, vì vậy rất yếu.Ni≥maxt(xit)NNN
Tôi sẽ không cung cấp chi tiết về các phương pháp ước tính ở đây, nhưng cung cấp một vài tài liệu tham khảo mà bạn có thể kiểm tra:
Ingram Olkin, A John Petkau, James V Zidek: So sánh các công cụ ước tính N cho Phân phối nhị thức. JASA 1981. Đây là một bài báo cổ điển phát triển và phân tích ML và các công cụ ước tính thời điểm, và một số biến thể đâm. Điều thú vị là, trong nhiều trường hợp, công cụ ước tính phương pháp khoảnh khắc tốt hơn công cụ ước tính ML!
Raymond J Carrol và F Lombard: Một lưu ý về N ước tính cho phân phối nhị thức. JASA 1985.
Phát triển một công cụ thay thế, stabler & có thể tốt hơn, dựa trên việc tích hợp ngoài khả năng. Cũng lưu ý sự thiếu đầy đủ của tổng số đếm.p
J Andrew Royle: Các mô hình N_Mixture để ước tính kích thước dân số từ số lượng nhân rộng không gian. Biometrics, 2004. Điều này mang đến một cách tiếp cận Bayes khác, mà bạn có thể thử.
Quay lại câu hỏi cụ thể của bạn. Bạn KHÔNG NÊN tổng số đếm trên hai khu vực của bạn! Điều đó sẽ mất thông tin. Nếu bạn giới thiệu thì hàm khả năng đăng nhập có thể được viết dưới dạng hàm của , và (hoặc ). Sau đó, tham số bổ sung nên được loại bỏ bằng một số thủ tục. Tôi sẽ trở lại với điều đó, nhưng không có không có thời gian! N=N1+N2NpN1N2N1