Hồi quy Poisson có những lợi thế gì so với hồi quy tuyến tính trong trường hợp này?


12

Tôi đã được cung cấp một bộ dữ liệu có chứa số lượng giải thưởng mà học sinh đạt được tại một trường trung học nơi những người dự đoán số lượng giải thưởng kiếm được bao gồm loại chương trình mà học sinh đã đăng ký và điểm trong bài kiểm tra cuối cùng của môn toán.

Tôi đã tự hỏi nếu có ai có thể cho tôi biết tại sao mô hình hồi quy tuyến tính có thể không phù hợp trong trường hợp này và tại sao sử dụng hồi quy Poisson sẽ tốt hơn? Cảm ơn.

Câu trả lời:


14

Ba điểm về hồi quy Poisson so với bình thường, tất cả đều liên quan đến đặc tả mô hình:

Ảnh hưởng của những thay đổi trong dự đoán

Với một công cụ dự đoán liên tục như điểm kiểm tra toán học Hồi quy Poisson (với liên kết nhật ký thông thường) ngụ ý rằng một thay đổi đơn vị trong công cụ dự đoán dẫn đến thay đổi phần trăm về số lượng giải thưởng, tức là thêm 10 điểm trong bài kiểm tra toán có liên quan đến ví dụ 25% nhiều giải thưởng hơn. Điều này phụ thuộc vào số lượng giải thưởng mà học sinh đã dự đoán sẽ có. Ngược lại, hồi quy bình thường liên kết thêm 10 điểm với số tiền cố định, cho biết thêm 3 giải thưởng trong mọi trường hợp. Bạn nên hài lòng với giả định đó trước khi sử dụng mô hình tạo ra nó. (fwiw tôi nghĩ nó rất hợp lý, modulo điểm tiếp theo.)

Đối phó với sinh viên không có giải thưởng

Trừ khi thực sự có nhiều giải thưởng trải rộng trên nhiều sinh viên thì tổng số giải thưởng của bạn sẽ khá thấp. Trong thực tế, tôi sẽ dự đoán lạm phát bằng không, tức là hầu hết sinh viên không nhận được bất kỳ giải thưởng nào, rất nhiều số không và một số sinh viên giỏi nhận được khá nhiều giải thưởng. Điều này gây rối với các giả định của mô hình Poisson và ít nhất là xấu đối với mô hình Bình thường.

Nếu bạn có một lượng dữ liệu kha khá, mô hình 'không bị thổi phồng' hoặc 'vượt rào' sẽ là điều tự nhiên. Đây là hai mô hình gắn liền với nhau: một để dự đoán liệu học sinh có nhận được bất kỳ giải thưởng nào không, và một mô hình khác để dự đoán số lượng cô ấy nhận được nếu cô ấy nhận được bất kỳ thứ gì (thường là một dạng mô hình Poisson). Tôi hy vọng tất cả các hành động sẽ được trong mô hình đầu tiên.

Độc quyền giải thưởng

Cuối cùng, một điểm nhỏ về giải thưởng. Nếu giải thưởng là độc quyền, tức là nếu một sinh viên nhận được giải thưởng thì không có sinh viên nào khác có thể nhận được giải thưởng, thì kết quả của bạn sẽ được kết hợp; một số đếm cho học sinh một lần đẩy số đếm có thể giảm xuống. Điều này có đáng lo ngại hay không phụ thuộc vào cấu trúc giải thưởng và quy mô dân số học sinh. Tôi sẽ bỏ qua nó ở lần đầu tiên.

Tóm lại, Poisson thoải mái thống trị Bình thường ngoại trừ số lượng rất lớn, nhưng kiểm tra các giả định của Poisson trước khi dựa vào nó để suy luận nhiều, và sẵn sàng chuyển sang lớp mô hình phức tạp hơn nếu cần thiết.


9

Hồi quy Poisson sẽ phù hợp hơn trong trường hợp này vì phản ứng của bạn là số đếm của một cái gì đó.

λ

λλ

Hồi quy tuyến tính bình thường giả định các lỗi bình thường xung quanh giá trị trung bình và do đó cân bằng nhau. Điều này nói rằng nếu một học sinh có số lượng giải thưởng dự kiến ​​là 1, thì rất có thể họ sẽ nhận được -2 giải thưởng như họ nhận được 3 giải thưởng: điều này rõ ràng là vô nghĩa và những gì poisson được xây dựng để giải quyết.


8

ln(awards+0.5)

Ngoài ra, khi số lượng giải thưởng dự kiến ​​trở nên rất lớn, OLS sẽ hoạt động tốt hơn vì những lý do được nêu ra bởi @Corone. Trong hồ Wobegon , OLS là con đường để đi.

Nếu số lượng dự kiến ​​thấp, có nhiều số không, tôi sẽ sử dụng Poisson với các lỗi tiêu chuẩn mạnh so với mô hình nhị thức âm. Hồi quy NB đưa ra một giả định mạnh mẽ về phương sai xuất hiện trong các điều kiện bậc nhất tạo ra các hệ số. Nếu những giả định này không được thỏa mãn, bản thân các hệ số có thể bị ô nhiễm. Đó không phải là trường hợp với Poisson.


4

λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

cho thấy độ lệch là 0,31, khá gần với 0.

Tôi cũng thích điểm của @conjugatep Warrior. Theo kinh nghiệm của tôi, rất hiếm khi hồi quy Poisson phù hợp tốt; Tôi thường kết thúc bằng cách sử dụng mô hình nhị thức âm hoặc mô hình không phồng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.