Trong mô hình hóa dữ liệu đếm yêu cầu trong môi trường bảo hiểm, tôi đã bắt đầu với Poisson nhưng sau đó nhận thấy sự quá mức. Một Quasi-Poisson được mô hình hóa tốt hơn mối quan hệ phương sai trung bình lớn hơn so với Poisson cơ bản, nhưng tôi nhận thấy rằng các hệ số giống hệt nhau trong cả hai mô hình Poisson và Quasi-Poisson.
Nếu đây không phải là một lỗi, tại sao điều này xảy ra? Lợi ích của việc sử dụng Quasi-Poisson so với Poisson là gì?
Những điều cần lưu ý:
- Các tổn thất cơ bản là trên cơ sở vượt mức, điều mà (tôi tin) đã ngăn Tweedie hoạt động - nhưng đó là bản phân phối đầu tiên tôi đã thử. Tôi cũng đã kiểm tra các mô hình NB, ZIP, ZINB và Hurdle, nhưng vẫn thấy Quasi-Poisson cung cấp phù hợp nhất.
- Tôi đã kiểm tra mức độ vượt quá thông qua phân tán trong gói AER. Tham số phân tán của tôi là khoảng 8.4, với giá trị p ở cường độ 10 ^ -16.
- Tôi đang sử dụng glm () với gia đình = poisson hoặc quasipoisson và một liên kết nhật ký cho mã.
- Khi chạy mã Poisson, tôi đưa ra các cảnh báo về "Trong dpois (y, mu, log = TRUE): không nguyên x = ...".
Chủ đề SE hữu ích theo hướng dẫn của Ben:
Không phải là một bản phân phối Tweedie sẽ là một ý tưởng tốt hơn?
—
duffymo
Đã thử Tweedie từ việc di chuyển nhưng dữ liệu mất mát của chúng tôi không phải là nền tảng, mà là trên cơ sở dư thừa. Cũng đã thử các mô hình Binomial, ZIP và rào cản âm để giải quyết sự phân tán đếm.
—
Frank H.
bạn có thể giải thích thêm một chút về việc các giá trị không nguyên trong dữ liệu của bạn đến từ đâu không ??
—
Ben Bolker
bạn không nên mô hình tần số / tỷ lệ bằng cách tính tỷ lệ
—
Ben Bolker
counts/exposure
. Thay vào đó, bạn nên thêm một offset(log(exposure))
thuật ngữ offset ( ) cho các mô hình của mình.
Đó là thực tế, mặc dù quan trọng nhất khi thực hiện mô hình Poisson (không phải quasi-Poisson). Tôi không biết về một tài liệu tham khảo tốt tay; nếu bạn không thể tìm thấy câu trả lời có liên quan ở đây trên CrossValidated, nó sẽ là một câu hỏi tiếp theo tốt.
—
Ben Bolker