Tại sao bình phương tối thiểu bình thường hoạt động tốt hơn hồi quy Poisson?

18

Tôi đang cố gắng điều chỉnh hồi quy để giải thích số vụ giết người ở mỗi quận trong thành phố. Mặc dù tôi biết rằng dữ liệu của mình tuân theo phân phối Poisson, tôi đã cố gắng khớp với OLS như thế này:

$log(y+1) = \alpha + \beta X + \epsilon$

Sau đó, tôi cũng đã thử (tất nhiên!) Một hồi quy Poisson. Vấn đề là tôi có kết quả tốt hơn trong hồi quy OLS: pseudo- cao hơn (0,71 so với 0,57) và RMSE cũng vậy (3,8 so với 8,88. Được chuẩn hóa để có cùng đơn vị). $R^2$

Tại sao? Nó có bình thường không? Có gì sai khi sử dụng OLS cho dù phân phối dữ liệu là gì?

chỉnh sửa Theo đề xuất của kjetil b halvorsen và những người khác, tôi đã trang bị dữ liệu thông qua hai mô hình: OLS và Negom Binomial GLM (NB). Tôi bắt đầu với tất cả các tính năng tôi có, sau đó tôi loại bỏ đệ quy từng tính năng một không đáng kể. OLS là

$\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon$

với trọng lượng = . $area$

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

NB dự đoán số lượng tội phạm, với diện tích của khu vực là bù đắp.

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

OLS dư:

Số dư NB

Vì vậy, RMSE thấp hơn trong OLS nhưng có vẻ như phần dư không quá bình thường ....

regression least-squares poisson-regression

— marcodena
nguồn

Bạn có thể gửi thêm một số chi tiết? Bản chất của dữ liệu là gì? đó là, biến phản ứng đếm là gì? các biến giải thích là gì?

— kjetil b halvorsen

@kjetilbhalvorsen biến phụ thuộc là số vụ giết người trên mỗi quận (112 quận). Những người phụ thuộc là đặc điểm cấu trúc của thành phố (ngã tư đường phố, POI, v.v.)

— marcodena

2

Nếu tôi điều chỉnh mô hình này bằng cách sử dụng hồi quy Poisson, tôi sẽ bao gồm log (kích thước quận) như một phần bù cho tài khoản cho các quận không phải là kích thước ame. Trừ khi họ là.

— mdewey

1

R^{2}

$R^2$

p s e u d o - R^{2}

$pseudo-R^2$

R M S E

$RMSE$

R^{2}

$R^2$

p s e u d o - R^{2}

$pseudo-R^2$

1

Một điều nữa để thêm vào - từ ols đang nói% của phương sai được giải thích trong trong khi poisson psuedo đang cố gắng đưa ra dấu hiệu của% phương sai của đó là giải thích. Điều này cũng có thể giải thích sự khác biệt

R^{2}

$R^2$

z = \log (y + 1)

$z=\log (y+1)$

R^{2}

$R^2$

y

$y$

— xác suất

16

Tôi nghi ngờ rằng một phần của vấn đề có thể nằm ở sự lựa chọn của bạn về chỉ số hiệu suất. Nếu bạn đo hiệu suất thử nghiệm bằng RMSE thì huấn luyện mô hình để giảm thiểu MSE phù hợp với tiêu chí thử nghiệm, đưa ra gợi ý về những gì được coi là quan trọng. Bạn có thể thấy rằng nếu bạn đo hiệu suất thử nghiệm bằng cách sử dụng khả năng ghi nhật ký âm của bộ thử nghiệm bằng khả năng Poisson thì mô hình Poisson hoạt động tốt hơn (như mong đợi). Đây có thể là một vấn đề nhỏ so với các vấn đề khác được nêu ra, nhưng nó có thể là một kiểm tra vệ sinh hữu ích.

— Sao Hỏa Dikran
nguồn

1

+1. Nếu mục tiêu của OP là dự đoán, thực sự có thể có một lý do để sử dụng mô hình OLS thay thế! Tuy nhiên, suy luận dựa trên lỗi cổ điển phát sinh từ OLS không thể / không nên được áp dụng trong GLM. Người ta có thể kiểm tra số dư sinh viên, hoặc một lựa chọn tốt hơn sẽ là so sánh các mô hình với AIC.

— AdamO

11

Đầu tiên, với dữ liệu như vậy, tôi sẽ mong đợi sự quá mức (nếu bạn không biết đó là gì, hãy xem /stats//search?q=what+is+overdispersion%3F ).

$\log(\text{DistrictSize})$ $\frac{\text{Nr. homicides}}{\text{District Size}}$

Một vấn đề khác là phép biến đổi bạn đã sử dụng với hồi quy tuyến tính. Phép biến đổi ổn định phương sai thông thường được sử dụng với dữ liệu đếm là căn bậc hai, không phải logarit.

$Y_i/x_i$ $Y_i \sim \text{Poisson}(\lambda x_i)$

E \frac{Y_{i}}{x_{i}} \propto λ V \frac{Y_{i}}{x_{i}} \propto x_{i}^{- 1}

$\DeclareMathOperator{\E}{\mathbb{E}} \DeclareMathOperator{\V}{\mathbb{V}} \E \frac{Y_i}{x_i} \propto \lambda \\ \V \frac{Y_i}{x_i} \propto x_i^{-1}$

x_{i}

$x_i$

\sqrt{Y_{i} / x_{i}}

$\sqrt{Y_i/x_i}$

\log (Y_{i} / x_{i} + 1)

$\log (Y_i/x_i +1)$

    EDIT

Đối với phân tích bổ sung của bạn trong bài đăng, lưu ý rằng rmse không thể được so sánh trực tiếp giữa hai mô hình, vì các phản ứng khác nhau được sử dụng! Để thực hiện so sánh trực tiếp, bạn sẽ cần phải quay lại các giá trị dự đoán theo tỷ lệ ban đầu. Sau đó, bạn có thể tự tính toán rmse và xem. Nhưng lưu ý rằng các dự đoán thu được sau khi thông tin ngược có thể bị sai lệch, vì tính phi tuyến. Vì vậy, một số điều chỉnh cho các dự đoán backtransformed có thể làm cho chúng hữu ích hơn. Trong một số trường hợp, như vậy có thể được tính theo lý thuyết, nếu bạn chỉ có thể sử dụng bootstrap.

— kjetil b halvorsen
nguồn

Tôi đã trang bị các mô hình như bạn đề xuất, mặc dù tôi không thực sự hiểu được tiếng vang đằng sau OLS có trọng số. Bạn nghĩ sao?

— marcodena

6

$R^2$ $R^2$ $R^2$ $R^2$

— Vách đá AB
nguồn

2

Đúng là dữ liệu của bạn không được phân phối Thông thường (mà tôi đoán là lý do tại sao bạn cũng chạy hồi quy Poisson) nhưng dữ liệu của bạn cũng có thể không phải là phân phối Poisson. Phân phối Poisson giả định rằng giá trị trung bình và phương sai là như nhau, điều này có thể không đúng (như đã đề cập trong các câu trả lời khác - bạn có thể nắm bắt sự khác biệt này và kết hợp nó vào mô hình). Vì dữ liệu của bạn không thực sự phù hợp với cả hai mô hình, nên có nghĩa là OLS có thể hoạt động tốt hơn.

Một điều cần lưu ý là các ước tính bình phương tối thiểu thông thường rất mạnh đối với tính phi bình thường, đó có thể là lý do tại sao bạn có được một mô hình hợp lý. Định lý Gauss-Markov cho chúng ta biết rằng các ước tính hệ số OLS là ước tính không thiên vị tuyến tính (tính theo bình phương trung bình) tốt nhất (BLUE) theo các giả định sau,

Các lỗi có giá trị trung bình bằng không
Các quan sát là không tương quan
Các lỗi có phương sai không đổi

Không có giả định về tính quy phạm ở đây để dữ liệu của bạn rất có thể hợp lý cho mô hình này! Với điều đó đã được nói, tôi sẽ xem xét một mô hình Poisson với tham số phân tán quá mức được nướng trong đó và bạn sẽ nhận được kết quả tốt hơn.

— TrynnaDoStat
nguồn

@TynnaDoStat cảm ơn! Tôi đã trang bị hai mô hình bây giờ, một mô hình với tham số phân tán. Bạn nghĩ sao?

— marcodena

2

Phương sai = có nghĩa là cho phân phối Poisson thường được gọi là giả định có vấn đề đối với hồi quy Poisson , nhưng điểm này không khó như được ngụ ý ở đây. Mặc dù tên của nó, ý tưởng chính của hồi quy Poisson là chức năng liên kết nhật ký; các giả định về phân phối có điều kiện gần như không quá quan trọng. Điều gì có thể xảy ra nếu các giả định không giữ tất cả chủ yếu là các lỗi tiêu chuẩn bị tắt trừ khi bạn điều chỉnh, nhưng sự phù hợp thường sẽ có ý nghĩa.

— Nick Cox

2

Thật vậy, hồi quy Poisson có thể có ý nghĩa đối với các phản ứng đo không âm trong đó phương sai và có nghĩa là thậm chí không có cùng kích thước. Xem ví dụ: blog.stata.com/2011/08/22/ trên

— Nick Cox