Poisson hay quasi poisson trong hồi quy với dữ liệu đếm và quá mức?


16

Tôi có dữ liệu đếm (phân tích nhu cầu / cung cấp với số lượng khách hàng, tùy thuộc vào - có thể - nhiều yếu tố). Tôi đã thử hồi quy tuyến tính với các lỗi thông thường, nhưng cốt truyện QQ của tôi không thực sự tốt. Tôi đã thử chuyển đổi nhật ký của câu trả lời: một lần nữa, âm mưu QQ tồi tệ.

Vì vậy, bây giờ, tôi đang thử hồi quy với lỗi Poisson. Với một mô hình với tất cả các biến quan trọng, tôi nhận được:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

Độ lệch còn lại lớn hơn mức độ tự do còn lại: Tôi có sự quá mức.

Làm thế nào tôi có thể biết nếu tôi cần sử dụng quasipoisson? Mục tiêu của quasipoisson trong trường hợp này là gì? Tôi đã đọc lời khuyên này trong "Cuốn sách R" của Crawley, nhưng tôi không thấy điểm nào cũng không phải là một cải tiến lớn trong trường hợp của tôi.

Câu trả lời:


18

Khi cố gắng xác định loại phương trình glm nào bạn muốn ước tính, bạn nên suy nghĩ về mối quan hệ hợp lý giữa giá trị dự kiến ​​của biến mục tiêu của bạn với các biến số bên phải (rhs) và phương sai của biến mục tiêu cho các biến rhs. Các lô của phần dư so với các giá trị được trang bị từ mô hình Bình thường của bạn có thể giúp với điều này. Với hồi quy Poisson, mối quan hệ giả định là phương sai bằng giá trị mong đợi; khá hạn chế, tôi nghĩ bạn sẽ đồng ý. Với hồi quy tuyến tính "tiêu chuẩn", giả định là phương sai không đổi bất kể giá trị mong đợi. Đối với hồi quy gần đúng, phương sai được coi là hàm tuyến tính của giá trị trung bình; cho hồi quy nhị thức âm, một hàm bậc hai.

Tuy nhiên, bạn không bị hạn chế trong các mối quan hệ này. Đặc điểm kỹ thuật của một "gia đình" (không phải là "gần đúng") xác định mối quan hệ phương sai trung bình. Tôi không có Sách R, nhưng tôi tưởng tượng nó có một bảng hiển thị các chức năng gia đình và các mối quan hệ phương sai trung bình tương ứng. Đối với gia đình "gần như", bạn có thể chỉ định bất kỳ mối quan hệ sai lệch trung bình nào và thậm chí bạn có thể tự viết; xem các tài liệu nghiên cứu . Có thể là bạn có thể tìm thấy sự phù hợp tốt hơn nhiều bằng cách chỉ định giá trị không mặc định cho hàm phương sai trung bình trong mô hình "gần đúng".

Bạn cũng nên chú ý đến phạm vi của biến mục tiêu; trong trường hợp của bạn đó là dữ liệu đếm không âm. Nếu bạn có một phần đáng kể các giá trị thấp - 0, 1, 2 - các phân phối liên tục có thể sẽ không phù hợp, nhưng nếu bạn không có, thì sẽ không có nhiều giá trị khi sử dụng phân phối rời rạc. Thật hiếm khi bạn coi phân phối Poisson và Bình thường là đối thủ cạnh tranh.


Vâng bạn đã đúng. Ở đây tôi có dữ liệu đếm nhưng với giá trị lớn. Tôi nên sử dụng một phân phối liên tục.
Antonin

8

Bạn đã đúng, những dữ liệu này có thể bị quá tải. Quasipoisson là một biện pháp khắc phục: Nó cũng ước tính một tham số tỷ lệ (được cố định cho các mô hình poisson vì phương sai cũng là trung bình) và sẽ cung cấp sự phù hợp tốt hơn. Tuy nhiên, đó không còn là khả năng tối đa những gì bạn đang làm và các thử nghiệm và chỉ số mô hình nhất định không thể được sử dụng. Một cuộc thảo luận tốt có thể được tìm thấy trong Venables và Ripley, Thống kê ứng dụng hiện đại với S (Phần 7.5) .

Một cách khác là sử dụng mô hình nhị thức âm, ví dụ glm.nb()hàm trong gói MASS.


1
Nhưng tôi có bị "ép buộc" sử dụng quasipoisson trong trường hợp này không? Tôi đang hỏi vì mô hình không quasipoisson của tôi là tốt hơn (chỉ là poisson cơ bản) theo nghĩa là có nhiều biến hơn là quan trọng.
Antonin

2
Điều đó không có ý nghĩa gì sao? Nếu tôi đã sử dụng mô hình hồi quy trong đó tôi giả sử rằng sigma là 0,00001 thay vì sử dụng ước tính từ dữ liệu (2,3 giả sử) thì tất nhiên mọi thứ sẽ có ý nghĩa hơn.
Dason

1
Antonin: Tôi muốn nói rằng chỉ vì nhiều biến số có ý nghĩa, nó không làm cho mọi thứ "tốt hơn". Những điều này có thể, như Dason đã chỉ ra, dễ dàng là dương tính giả nếu bạn đánh giá thấp phương sai lỗi. Tôi chắc chắn sẽ sử dụng phương pháp gần đúng hoặc nhị thức âm trong trường hợp này, nhưng trừ khi tôi xem lại bài viết của mình, bạn sẽ không bị buộc phải làm bất cứ điều gì;)
Momo

Cảm ơn rất nhiều cho câu trả lời của bạn! Bạn có biết bất kỳ cách nào để so sánh các mô hình nhị phân chuẩn và nhị phân âm không? Trong hầu hết các cuốn sách, họ trình bày các mô hình nhưng không giải thích cách chọn giữa chúng.
Antonin

1
Từ đầu ra, có vẻ như bạn đang điều chỉnh 53-17 = 16 tham số cho 53 + 1 = 54 điểm dữ liệu; thê nay đung không? Nếu vậy, bất kỳ phương pháp nào dựa trên các xấp xỉ tiệm cận, bao gồm cả việc sử dụng glm()glm.nb()có trách nhiệm đưa ra suy luận hiệu chuẩn kém; nó sẽ là hợp lý để mong đợi độ chính xác được phóng đại. Sẽ hữu ích khi biết thêm về lý do tại sao bạn muốn thực hiện hồi quy này; thay vào đó, có thể sử dụng các phương pháp có thể hoạt động tốt hơn trong các tình huống mẫu nhỏ.
khách
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.