Tôi đang cố gắng điều chỉnh hồi quy để giải thích số vụ giết người ở mỗi quận trong thành phố. Mặc dù tôi biết rằng dữ liệu của mình tuân theo phân phối Poisson, tôi đã cố gắng khớp với OLS như thế này:
Sau đó, tôi cũng đã thử (tất nhiên!) Một hồi quy Poisson. Vấn đề là tôi có kết quả tốt hơn trong hồi quy OLS: pseudo- cao hơn (0,71 so với 0,57) và RMSE cũng vậy (3,8 so với 8,88. Được chuẩn hóa để có cùng đơn vị).
Tại sao? Nó có bình thường không? Có gì sai khi sử dụng OLS cho dù phân phối dữ liệu là gì?
chỉnh sửa Theo đề xuất của kjetil b halvorsen và những người khác, tôi đã trang bị dữ liệu thông qua hai mô hình: OLS và Negom Binomial GLM (NB). Tôi bắt đầu với tất cả các tính năng tôi có, sau đó tôi loại bỏ đệ quy từng tính năng một không đáng kể. OLS là
với trọng lượng = .
summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))
error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area
rmse(error2)
[1] 80.64783
NB dự đoán số lượng tội phạm, với diện tích của khu vực là bù đắp.
summary(m3 <- glm.nb(num ~ LUM5_single + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places + employed + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))
error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")
rmse(error)
[1] 121.8714
OLS dư:
Số dư NB
Vì vậy, RMSE thấp hơn trong OLS nhưng có vẻ như phần dư không quá bình thường ....