Bài viết của Christopher Manning về hồi quy logistic trong R cho thấy hồi quy logistic trong R như sau:
ced.logr <- glm(ced.del ~ cat + follows + factor(class),
family=binomial)
Một số đầu ra:
> summary(ced.logr)
Call:
glm(formula = ced.del ~ cat + follows + factor(class),
family = binomial("logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-3.24384 -1.34325 0.04954 1.01488 6.40094
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.31827 0.12221 -10.787 < 2e-16
catd -0.16931 0.10032 -1.688 0.091459
catm 0.17858 0.08952 1.995 0.046053
catn 0.66672 0.09651 6.908 4.91e-12
catv -0.76754 0.21844 -3.514 0.000442
followsP 0.95255 0.07400 12.872 < 2e-16
followsV 0.53408 0.05660 9.436 < 2e-16
factor(class)2 1.27045 0.10320 12.310 < 2e-16
factor(class)3 1.04805 0.10355 10.122 < 2e-16
factor(class)4 1.37425 0.10155 13.532 < 2e-16
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 958.66 on 51 degrees of freedom
Residual deviance: 198.63 on 42 degrees of freedom
AIC: 446.10
Number of Fisher Scoring iterations: 4
Sau đó, ông đi vào một số chi tiết về cách giải thích các hệ số, so sánh các mô hình khác nhau, v.v. Khá hữu dụng.
Tuy nhiên, mô hình chiếm bao nhiêu phương sai? Một trang Stata về hồi quy logistic cho biết:
Về mặt kỹ thuật, không thể được tính toán theo cách tương tự trong hồi quy logistic như trong hồi quy OLS. Giả 2 R , trong hồi quy logistic, được định nghĩa là 1 - L 1 , trong đóL0đại diện cho khả năng ghi nhật ký cho mô hình "chỉ không đổi" vàL1là khả năng ghi nhật ký cho mô hình đầy đủ với hằng số và dự đoán.
Tôi hiểu điều này ở cấp độ cao. Mô hình chỉ có hằng số sẽ không có bất kỳ tham số nào (chỉ có thuật ngữ chặn). Khả năng đăng nhập là thước đo mức độ chặt chẽ của các tham số phù hợp với dữ liệu. Trong thực tế, Manning loại gợi ý rằng sự lệch lạc có thể là . Có lẽ độ lệch null là hằng số duy nhất và độ lệch còn lại là - 2 log L của mô hình? Tuy nhiên, tôi không rõ ràng về nó.
Ai đó có thể xác minh làm thế nào ai thực sự tính toán pseudo- R sử dụng ví dụ này?