Tôi đang cố gắng điều chỉnh các mô hình tuyến tính tổng quát cho một số bộ dữ liệu đếm có thể hoặc không được sử dụng quá mức. Hai phân phối chính tắc được áp dụng ở đây là Poisson và Negative Binomial (Negbin), với EV và phương sai
có thể được trang bị trong R bằng cách sử dụng glm(..,family=poisson)
và glm.nb(...)
, tương ứng. Ngoài ra còn có quasipoisson
gia đình, mà theo cách hiểu của tôi là một Poisson được điều chỉnh với cùng EV và phương sai
,
tức là rơi ở đâu đó ở giữa Poisson và Negbin. Vấn đề chính với gia đình quasipoisson là không có khả năng tương ứng cho nó, và do đó rất nhiều thử nghiệm thống kê cực kỳ hữu ích và các biện pháp phù hợp (AIC, LR vvetera) không có sẵn.
Nếu bạn so sánh phương sai QP và Negbin, bạn có thể nhận thấy rằng bạn có thể đánh đồng chúng bằng cách đặt . Tiếp tục logic này, bạn có thể cố gắng thể hiện phân phối quasipoisson như một trường hợp đặc biệt của Negbin:
,
tức là một Negbin với phụ thuộc tuyến tính vào . Tôi đã cố gắng xác minh ý tưởng này bằng cách tạo ra một chuỗi số ngẫu nhiên theo công thức trên và khớp với :μglm
#fix parameters
phi = 3
a = 1/50
b = 3
x = 1:100
#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison
mu = exp(a*x+b)
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator
#fit a generalized linear model y = f(x)
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial
> glmQP
Call: glm(formula = y ~ x, family = quasipoisson)
Coefficients:
(Intercept) x
3.11257 0.01854
(Dispersion parameter for quasipoisson family taken to be 3.613573)
Degrees of Freedom: 99 Total (i.e. Null); 98 Residual
Null Deviance: 2097
Residual Deviance: 356.8 AIC: NA
> glmNB
Call: glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)
Coefficients:
(Intercept) x
3.10182 0.01873
Degrees of Freedom: 99 Total (i.e. Null); 98 Residual
Null Deviance: 578.1
Residual Deviance: 107.8 AIC: 824.7
Cả hai đều phù hợp để tái tạo các tham số và quasipoisson đưa ra ước tính 'hợp lý' cho . Bây giờ chúng ta cũng có thể xác định giá trị AIC cho quasipoisson:
df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values
#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329
(Tôi phải sao chép thủ công giá trị được trang bị từ đó , vì tôi không thể tìm thấy nó trong đối tượng)summary(glmQP)
glmQP
Vì , điều này sẽ chỉ ra rằng quasipoisson, không có gì đáng ngạc nhiên, phù hợp hơn; vì vậy, ít nhất thực hiện những gì cần làm và do đó, đây có thể là một định nghĩa hợp lý cho AIC (và bằng cách mở rộng, khả năng) của một quasipoisson. Những câu hỏi lớn tôi còn lại là A I C Q P
- Liệu ý tưởng này có ý nghĩa? Là xác minh của tôi dựa trên lý luận tròn?
- Câu hỏi chính cho bất cứ ai 'phát minh' thứ gì đó dường như đang thiếu trong một chủ đề được thiết lập tốt: nếu ý tưởng này có ý nghĩa, tại sao nó không được thực hiện
glm
?
Chỉnh sửa: hình đã thêm