Tại sao quasi-Poisson trong GLM không được coi là trường hợp đặc biệt của nhị thức âm?


21

Tôi đang cố gắng điều chỉnh các mô hình tuyến tính tổng quát cho một số bộ dữ liệu đếm có thể hoặc không được sử dụng quá mức. Hai phân phối chính tắc được áp dụng ở đây là Poisson và Negative Binomial (Negbin), với EV và phương saiμ

VarP=μ

VarNB=μ+μ2θ

có thể được trang bị trong R bằng cách sử dụng glm(..,family=poisson)glm.nb(...), tương ứng. Ngoài ra còn có quasipoissongia đình, mà theo cách hiểu của tôi là một Poisson được điều chỉnh với cùng EV và phương sai

VarQP=ϕμ ,

tức là rơi ở đâu đó ở giữa Poisson và Negbin. Vấn đề chính với gia đình quasipoisson là không có khả năng tương ứng cho nó, và do đó rất nhiều thử nghiệm thống kê cực kỳ hữu ích và các biện pháp phù hợp (AIC, LR vvetera) không có sẵn.

Nếu bạn so sánh phương sai QP và Negbin, bạn có thể nhận thấy rằng bạn có thể đánh đồng chúng bằng cách đặt . Tiếp tục logic này, bạn có thể cố gắng thể hiện phân phối quasipoisson như một trường hợp đặc biệt của Negbin:ϕ=1+μθ

QP(μ,ϕ)=NB(μ,θ=μϕ1) ,

tức là một Negbin với phụ thuộc tuyến tính vào . Tôi đã cố gắng xác minh ý tưởng này bằng cách tạo ra một chuỗi số ngẫu nhiên theo công thức trên và khớp với :μθμglm

#fix parameters

phi = 3
a = 1/50
b = 3
x = 1:100

#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison

mu = exp(a*x+b) 
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator

#fit a generalized linear model y = f(x)  
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial

> glmQP

Call:  glm(formula = y ~ x, family = quasipoisson)

Coefficients:
(Intercept)            x  
    3.11257      0.01854  
(Dispersion parameter for quasipoisson family taken to be 3.613573)

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      2097 
Residual Deviance: 356.8    AIC: NA

> glmNB

Call:  glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)

Coefficients:
(Intercept)            x  
    3.10182      0.01873  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      578.1 
Residual Deviance: 107.8    AIC: 824.7

Cả hai đều phù hợp để tái tạo các tham số và quasipoisson đưa ra ước tính 'hợp lý' cho . Bây giờ chúng ta cũng có thể xác định giá trị AIC cho quasipoisson:ϕ

df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values 

#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329

(Tôi phải sao chép thủ công giá trị được trang bị từ đó , vì tôi không thể tìm thấy nó trong đối tượng)ϕsummary(glmQP)glmQP

Vì , điều này sẽ chỉ ra rằng quasipoisson, không có gì đáng ngạc nhiên, phù hợp hơn; vì vậy, ít nhất thực hiện những gì cần làm và do đó, đây có thể là một định nghĩa hợp lý cho AIC (và bằng cách mở rộng, khả năng) của một quasipoisson. Những câu hỏi lớn tôi còn lại là A I C Q PAICQP<AICNBAICQP

  1. Liệu ý tưởng này có ý nghĩa? Là xác minh của tôi dựa trên lý luận tròn?
  2. Câu hỏi chính cho bất cứ ai 'phát minh' thứ gì đó dường như đang thiếu trong một chủ đề được thiết lập tốt: nếu ý tưởng này có ý nghĩa, tại sao nó không được thực hiện glm?

Chỉnh sửa: hình đã thêm

glm phù hợp và + -1 dải sigma


1
(+1) Chào mừng bạn đến với Xác thực chéo! Và cảm ơn bạn vì một câu hỏi xuất sắc (mặc dù một vài bình luận trong mã có thể tốt cho những người không sử dụng R). Tôi nghĩ rằng bạn có thể đã phát minh lại mô hình NB1 (mặc dù tôi chưa theo dõi chi tiết). Cũng lưu ý rằng không có phân phối gần đúng - đó là lý do tại sao không có khả năng hoặc AIC - nó chỉ đề cập đến một cách phù hợp với phương tiện & phương sai.
Scortchi - Tái lập Monica

2
Cảm ơn! Tôi đã thêm một số ý kiến ​​trong khi chờ đợi, tôi hy vọng rằng sẽ làm sáng tỏ mọi thứ. Tôi hiểu rằng phân phối quasi-Poisson không tồn tại mỗi lần - điều tôi thực sự cố gắng tìm hiểu là tại sao QP thậm chí là một điều gì đó, xem xét rằng phân phối NB1 tồn tại và không có bất kỳ vấn đề nào của QP (xem câu trả lời Achims cho một giải pháp rõ ràng).
dùng28400

1
@Scortchi --- trên thực tế, có một bản phân phối như vậy ... Nếu , và , sau đó là gia đình mũ với trung bình và phương sai . Nếu . Nó không nhất thiết phải phù hợp với dữ liệu số (trừ khi một xấp xỉ), kể từ khi nó được định nghĩa trên . Y = k X Y μ = k λ k μ k 1 0 , k , 2 k , . . .XPois(λ)Y=kXYμ=kλkμk10,k,2k,...
Glen_b -Reinstate Monica

1
@Glen_b: Mọi người có thực sự gọi đó là quasi-Poisson không? Trong mọi trường hợp, đó là một minh họa tuyệt vời - khi bạn sử dụng mô hình "quasiPoisson", bạn không thực sự giả định rằng phân phối đó, hoặc NB1, hay bất kỳ mối quan hệ nào khác, chỉ là mối quan hệ giữa trung bình & phương sai làm cho ước tính hệ số & sai số chuẩn của chúng tốt hơn khi mẫu được lớn hơn.
Scortchi - Phục hồi Monica

1
@Scortchi Đây là phân phối gia đình theo cấp số nhân duy nhất thỏa mãn các giả định của quasi-Poisson, do đó, đôi khi tôi thấy mọi người chỉ ra rằng đó là phân phối mà giả định ngụ ý. Tất nhiên khi mọi người sử dụng nó, họ gần như * không bao giờ có ý định rằng dữ liệu của họ là từ phân phối cụ thể đó - nó chỉ nhằm mục đích mô tả sơ bộ về ý nghĩa và phương sai của họ liên quan như thế nào. (Điều này có thể có ý nghĩa theo các giả định rất đơn giản trong một số ứng dụng bảo hiểm - tổng chi phí khiếu nại, trong đó số lượng khiếu nại là Poisson và chi phí cho mỗi yêu cầu là không đổi.)
Glen_b -Reinstate Monica

Câu trả lời:


24

Mô hình quasi-Poisson không phải là mô hình khả năng tối đa (ML) đầy đủ mà là mô hình quasi-ML. Bạn chỉ cần sử dụng hàm ước tính (hoặc hàm điểm) từ mô hình Poisson để ước tính các hệ số, sau đó sử dụng hàm phương sai nhất định để thu được các lỗi tiêu chuẩn phù hợp (hay đúng hơn là ma trận hiệp phương sai) để thực hiện suy luận. Do đó, glm()không cung cấp và logLik()hoặc AIC()ở đây, vv

sizeθtôiμtôi

Nếu không có hồi quy (chỉ là một đánh chặn) các parametrization NB1 và NB2 parametrization làm việc MASS's glm.nb()trùng. Với hồi quy chúng khác nhau. Trong tài liệu thống kê, tham số NB2 được sử dụng thường xuyên hơn nhưng một số gói phần mềm cũng cung cấp phiên bản NB1. Ví dụ trong R, bạn có thể sử dụng gamlssgói để làm gamlss(y ~ x, family = NBII). Lưu ý rằng việc gamlsssử dụng một cách khó hiểu NBIcho tham số NB2 và NBIIcho NB1. (Nhưng thuật ngữ và thuật ngữ không thống nhất trong tất cả các cộng đồng.)

Sau đó, bạn có thể hỏi, tại sao lại sử dụng quasi-Poisson nếu có sẵn NB1? Vẫn còn một sự khác biệt tinh tế: Cái trước sử dụng quasi-ML và thu được ước tính từ sự phân tán từ phần dư bình phương (hoặc Pearson). Cái sau sử dụng ML đầy đủ. Trong thực tế, sự khác biệt thường không lớn nhưng động lực để sử dụng một trong hai mô hình hơi khác nhau.


1
Cảm ơn! Câu trả lời rất hữu ích, tôi đang thử nghiệm gamlssngay bây giờ và có vẻ như đó chính xác là những gì tôi cần. Bạn có thể giải thích về các động lực để sử dụng khả năng gần như so với ML đầy đủ không?
dùng28400

2
Bạn giả sử ít hơn: Bạn chỉ giả sử (1) mối quan hệ log-linear giữa kỳ vọng và biến hồi quy (2) mối quan hệ tuyến tính giữa phương sai và kỳ vọng. Phần còn lại của khả năng là hoàn toàn không xác định. Thay thế cho (2), đôi khi các học viên sử dụng cái gọi là lỗi tiêu chuẩn bánh sandwich "mạnh mẽ", điều này sẽ cho phép các kiểu không đồng nhất chung hơn. Tất nhiên, người ta cũng có thể sử dụng NB1 với các lỗi tiêu chuẩn bánh sandwich ... Một vài ý kiến ​​khác được đưa ra vignette("countreg", package = "pscl").
Achim Zeileis
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.