Hiểu các tham số bên trong Phân phối nhị thức âm

37

Tôi đã cố gắng để phù hợp với dữ liệu của tôi vào các mô hình khác nhau và tìm ra rằng fitdistrchức năng từ thư viện MASScủa Rmang lại cho tôi Negative Binomialnhư điều chỉnh kích thước tốt nhất. Bây giờ từ trang wiki , định nghĩa được đưa ra là:

Phân phối NegBin (r, p) mô tả xác suất thất bại k và thành công r trong các thử nghiệm k + r Bernoulli (p) với thành công trong thử nghiệm cuối cùng.

Sử dụng Rđể thực hiện mô hình phù hợp cho tôi hai tham số meanvà dispersion parameter. Tôi không hiểu làm thế nào để giải thích những điều này bởi vì tôi không thể thấy các tham số này trên trang wiki. Tất cả những gì tôi có thể thấy là công thức sau:

Công thức phân phối nhị thức âm

nơi klà số quan sát và r=0...n. Bây giờ làm thế nào để tôi liên hệ những điều này với các tham số được đưa ra bởi R? Các tập tin trợ giúp cũng không cung cấp nhiều thông tin.

Ngoài ra, chỉ cần nói vài lời về thử nghiệm của tôi: Trong một thử nghiệm xã hội mà tôi đang tiến hành, tôi đã cố gắng đếm số người mà mỗi người dùng liên hệ trong khoảng thời gian 10 ngày. Kích thước dân số là 100 cho thí nghiệm.

Bây giờ, nếu mô hình phù hợp với Binomial âm, tôi có thể nói một cách mù quáng rằng nó tuân theo phân phối đó nhưng tôi thực sự muốn hiểu ý nghĩa trực quan đằng sau điều này. Điều đó có nghĩa gì khi nói rằng số người được các đối tượng thử nghiệm của tôi liên hệ tuân theo phân phối nhị thức âm? Ai đó có thể vui lòng giúp làm rõ điều này?

r distributions modeling negative-binomial

— Huyền thoại
nguồn

42

Bạn nên xem thêm bài viết Wikipedia trên NB , nơi nó nói "hỗn hợp gamma-Poisson". Trong khi định nghĩa bạn trích dẫn (mà tôi gọi là định nghĩa "lật đồng xu" vì tôi thường định nghĩa nó cho các lớp là "giả sử bạn muốn lật một đồng xu cho đến khi bạn nhận được $k$ Heads ") dễ dàng rút ra và có ý nghĩa hơn trong bối cảnh xác suất giới thiệu hoặc thống kê toán học, hỗn hợp gamma-Poisson là (theo kinh nghiệm của tôi) một cách hữu ích hơn nhiều để suy nghĩ về phân phối trong bối cảnh ứng dụng. (Đặc biệt, định nghĩa này cho phép các giá trị không nguyên của tham số phân tán / kích thước.) Trong ngữ cảnh này, tham số phân tán của bạn mô tả phân phối phân phối Gamma giả định làm cơ sở cho dữ liệu của bạn và mô tả sự thay đổi không quan sát được giữa các cá nhân trong mức độ tiếp xúc nội tại của họ. đó là tham số hình dạng của Gamma và có thể hữu ích khi nghĩ về điều này để biết rằng hệ số biến đổi của phân phối Gamma với tham số hình dạng là ; $\theta$ $1/\sqrt{\theta}$ $\theta$ trở nên lớn, biến thiên tiềm ẩn biến mất và phân phối tiếp cận Poisson.

— Ben Bolker
nguồn

7

hmm Tôi tự hỏi tại sao downvote?

— Ben Bolker

Công thức NB (trung bình, phân tán) cũng được mô tả trong phần của các công thức thay thế ( en.wikipedia.org/wiki/iêu ) bây giờ trong trang wiki đó.

— mt1022

10

Như tôi đã đề cập trong bài viết trước đây của tôi với bạn, tôi đang cố gắng tập trung vào việc phân phối để đếm dữ liệu. Đây là một trong những điều tôi đã học được:

Khi phương sai lớn hơn giá trị trung bình, sự quá mức là hiển nhiên và do đó phân phối nhị thức âm có khả năng thích hợp. Nếu phương sai và giá trị trung bình là như nhau, phân phối Poisson được đề xuất và khi phương sai nhỏ hơn giá trị trung bình, thì đó là phân phối nhị thức được khuyến nghị.

Với dữ liệu đếm bạn đang làm việc, bạn đang sử dụng tham số hóa "sinh thái" của hàm nhị thức âm trong R. Mục 4.5.1.3 (Trang 165) của cuốn sách có sẵn miễn phí sau đây nói về điều này một cách cụ thể (trong ngữ cảnh của R, không kém!) và, tôi hy vọng, có thể giải quyết một số câu hỏi của bạn:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

Nếu bạn đi đến kết luận rằng dữ liệu của bạn bị cắt ngắn (nghĩa là xác suất 0 quan sát là 0), thì bạn có thể muốn kiểm tra hương vị bị cắt ngắn của NBD trong gói R VGAM .

Đây là một ví dụ về ứng dụng của nó:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

Tôi hy vọng điều này là hữu ích.

— Jeff Tyzzer
nguồn

Trang 165 trong cuốn sách.

— SmallChess