Các hệ số giống hệt nhau được ước tính trong mô hình Poisson so với Quasi-Poisson


12

Trong mô hình hóa dữ liệu đếm yêu cầu trong môi trường bảo hiểm, tôi đã bắt đầu với Poisson nhưng sau đó nhận thấy sự quá mức. Một Quasi-Poisson được mô hình hóa tốt hơn mối quan hệ phương sai trung bình lớn hơn so với Poisson cơ bản, nhưng tôi nhận thấy rằng các hệ số giống hệt nhau trong cả hai mô hình Poisson và Quasi-Poisson.

Nếu đây không phải là một lỗi, tại sao điều này xảy ra? Lợi ích của việc sử dụng Quasi-Poisson so với Poisson là gì?

Những điều cần lưu ý:

  • Các tổn thất cơ bản là trên cơ sở vượt mức, điều mà (tôi tin) đã ngăn Tweedie hoạt động - nhưng đó là bản phân phối đầu tiên tôi đã thử. Tôi cũng đã kiểm tra các mô hình NB, ZIP, ZINB và Hurdle, nhưng vẫn thấy Quasi-Poisson cung cấp phù hợp nhất.
  • Tôi đã kiểm tra mức độ vượt quá thông qua phân tán trong gói AER. Tham số phân tán của tôi là khoảng 8.4, với giá trị p ở cường độ 10 ^ -16.
  • Tôi đang sử dụng glm () với gia đình = poisson hoặc quasipoisson và một liên kết nhật ký cho mã.
  • Khi chạy mã Poisson, tôi đưa ra các cảnh báo về "Trong dpois (y, mu, log = TRUE): không nguyên x = ...".

Chủ đề SE hữu ích theo hướng dẫn của Ben:

  1. Toán cơ bản của Offsets trong hồi quy Poisson
  2. Tác động của bù đắp đến hệ số
  3. Sự khác biệt giữa việc sử dụng Phơi sáng như Covariate vs Offset

Không phải là một bản phân phối Tweedie sẽ là một ý tưởng tốt hơn?
duffymo

Đã thử Tweedie từ việc di chuyển nhưng dữ liệu mất mát của chúng tôi không phải là nền tảng, mà là trên cơ sở dư thừa. Cũng đã thử các mô hình Binomial, ZIP và rào cản âm để giải quyết sự phân tán đếm.
Frank H.

1
bạn có thể giải thích thêm một chút về việc các giá trị không nguyên trong dữ liệu của bạn đến từ đâu không ??
Ben Bolker

6
bạn không nên mô hình tần số / tỷ lệ bằng cách tính tỷ lệ counts/exposure. Thay vào đó, bạn nên thêm một offset(log(exposure))thuật ngữ offset ( ) cho các mô hình của mình.
Ben Bolker

1
Đó là thực tế, mặc dù quan trọng nhất khi thực hiện mô hình Poisson (không phải quasi-Poisson). Tôi không biết về một tài liệu tham khảo tốt tay; nếu bạn không thể tìm thấy câu trả lời có liên quan ở đây trên CrossValidated, nó sẽ là một câu hỏi tiếp theo tốt.
Ben Bolker

Câu trả lời:


25

χ2p .

p , v.v.) sẽ là rác.

  • Như bạn nhận xét ở trên, có rất nhiều cách tiếp cận khác nhau đối với sự quá mức (Tweedie, các tham số nhị thức âm khác nhau, khả năng gần đúng, lạm phát / thay đổi).
  • Với hệ số quá mức> 5 (8.4), tôi sẽ lo lắng một chút về việc liệu nó có bị điều khiển bởi một loại mô hình không phù hợp (ngoại lệ, lạm phát bằng không [mà tôi thấy bạn đã thử], phi tuyến tính) hơn là đại diện cho sự không đồng nhất trên bảng. Cách tiếp cận chung của tôi về vấn đề này là khám phá đồ họa của dữ liệu thô và chẩn đoán hồi quy ...

Rất hữu ích. Bây giờ tôi thấy rằng các giá trị p cho các biến và mức độ của các biến trong Poisson có ý nghĩa thống kê hơn nhiều so với Quasi-Poisson, do tỷ lệ bạn đã đề cập. Tôi đã kiểm tra các ngoại lệ nhưng không thấy đây là một vấn đề. Điều gì có thể là một số vấn đề khác đang được che dấu bởi sự quá mức, hoặc ví dụ về các phương pháp như vậy để tìm ra những vấn đề này?
Frank H.

Chủ yếu là phi tuyến tính của các phản hồi trên thang đo liên kết (log); kiểm tra các lô dư-vs-lắp và các lô dư-vs-dự đoán-biến để xem có mẫu nào không.
Ben Bolker

1
+1 Tuyệt vời đặt ra! Tôi thực sự đánh giá cao sự rõ ràng của đoạn đầu tiên của bạn.
Alexis
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.