Các mô hình đếm không tăng trong R: lợi thế thực sự là gì?


11

Để phân tích số lượng chim bị thổi phồng bằng không, tôi muốn áp dụng các mô hình đếm không lạm phát bằng cách sử dụng gói pscl . Tuy nhiên, xem xét ví dụ được cung cấp trong tài liệu cho một trong các chức năng chính ( ? Zeroinfl ), tôi bắt đầu nghi ngờ lợi thế thực sự của các mô hình này là gì. Theo mã mẫu được đưa ra ở đó, tôi đã tính toán các mô hình poisson, quasi-poisson tiêu chuẩn và mô hình bionom âm tính đơn giản, các mô hình nhị phân không phồng đơn giản và các mô hình nhị phân âm và các mô hình nhị phân âm và các biến nhị phân âm với các biến hồi quy cho thành phần 0. Sau đó, tôi kiểm tra biểu đồ của dữ liệu quan sát và dữ liệu được trang bị. (Đây là mã để sao chép đó.)

library(pscl)
data("bioChemists", package = "pscl")

## standard count data models
fm_pois  <- glm(art ~ .,    data = bioChemists, family = poisson)
fm_qpois <- glm(art ~ .,    data = bioChemists, family = quasipoisson)
fm_nb    <- glm.nb(art ~ ., data = bioChemists)

## with simple inflation (no regressors for zero component)
fm_zip  <- zeroinfl(art ~ . | 1, data = bioChemists)
fm_zinb <- zeroinfl(art ~ . | 1, data = bioChemists, dist = "negbin")

## inflation with regressors
fm_zip2  <- zeroinfl(art ~ fem + mar + kid5 + phd + ment | fem + mar + kid5 + phd + 
                     ment, data = bioChemists)
fm_zinb2 <- zeroinfl(art ~ fem + mar + kid5 + phd + ment | fem + mar + kid5 + phd + 
                     ment, data = bioChemists, dist = "negbin")

## histograms
breaks <- seq(-0.5,20.5,1)
par(mfrow=c(4,2))
hist(bioChemists$art,  breaks=breaks)
hist(fitted(fm_pois),  breaks=breaks)
hist(fitted(fm_qpois), breaks=breaks)
hist(fitted(fm_nb),    breaks=breaks)
hist(fitted(fm_zip),   breaks=breaks)
hist(fitted(fm_zinb),  breaks=breaks)
hist(fitted(fm_zip2),  breaks=breaks)
hist(fitted(fm_zinb2), breaks=breaks)!

Biểu đồ dữ liệu quan sát và trang bị

Tôi không thể thấy bất kỳ sự khác biệt cơ bản nào giữa các mô hình khác nhau (ngoài ra, dữ liệu mẫu không xuất hiện rất "không phồng" đối với tôi ...); trên thực tế không có mô hình nào mang lại ước tính hợp lý giữa các số không. Bất cứ ai có thể giải thích những lợi thế của các mô hình không thổi phồng? Tôi cho rằng phải có một lý do để chọn điều này làm ví dụ cho hàm.

Câu trả lời:


15

Tôi nghĩ rằng đây là một bộ dữ liệu được lựa chọn kém để khám phá những lợi thế của các mô hình lạm phát bằng không, bởi vì, như bạn lưu ý, không có lạm phát bằng không.

plot(fitted(fm_pois), fitted(fm_zinb))

cho thấy các giá trị dự đoán gần như giống hệt nhau.

Trong các tập dữ liệu có mức lạm phát bằng 0 nhiều hơn, các mô hình ZI cho kết quả khác nhau (và thường phù hợp hơn) so với Poisson.

Một cách khác để so sánh sự phù hợp của các mô hình là so sánh kích thước của phần dư:

boxplot(abs(resid(fm_pois) - resid(fm_zinb)))

cho thấy, ngay cả ở đây, phần dư từ Poisson nhỏ hơn so với ZINB. Nếu bạn có một số ý tưởng về độ lớn của phần dư thực sự có vấn đề, bạn có thể thấy tỷ lệ phần dư trong mỗi mô hình ở trên đó. Ví dụ: nếu tắt hơn 1 là không thể chấp nhận

sum(abs(resid(fm_pois) > 1))
sum(abs(resid(fm_zinb) > 1))

cho thấy cái sau tốt hơn một chút - 20 phần dư lớn hơn.

Sau đó, câu hỏi là liệu sự phức tạp thêm vào của các mô hình có xứng đáng với bạn không.


6

XiPois(μ)xiμ^ixiXiPois(μ^)xixi


Những loại so sánh khác bạn muốn giới thiệu?
dùng7417

Xem câu trả lời của Peter để so sánh tốt giữa các mô hình.
Scortchi - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.