Tóm tắt: Có lý thuyết thống kê nào hỗ trợ việc sử dụng phân phối (với mức độ tự do dựa trên độ lệch còn lại) cho các thử nghiệm hệ số hồi quy logistic, thay vì phân phối chuẩn thông thường không?
Cách đây một thời gian, tôi phát hiện ra rằng khi điều chỉnh mô hình hồi quy logistic trong SAS PROC GLIMMIX, theo cài đặt mặc định, các hệ số hồi quy logistic được kiểm tra bằng phân phối thay vì phân phối chuẩn thông thường. Nghĩa là, GLIMMIX báo cáo một cột có tỷ lệ (mà tôi sẽ gọi trong phần còn lại của câu hỏi này ), nhưng cũng báo cáo cột "bậc tự do", cũng như giá trị dựa trên giả định phân phối cho zptzvới mức độ tự do dựa trên độ lệch còn lại - nghĩa là mức độ tự do = tổng số quan sát trừ đi số lượng tham số. Ở dưới cùng của câu hỏi này, tôi cung cấp một số mã và đầu ra trong R và SAS để trình diễn và so sánh. 2
Điều này làm tôi bối rối, vì tôi nghĩ rằng đối với các mô hình tuyến tính tổng quát như hồi quy logistic, không có lý thuyết thống kê nào hỗ trợ việc sử dụng phân phối trong trường hợp này. Thay vào đó tôi nghĩ những gì chúng ta biết về trường hợp này là
- là "xấp xỉ" thường được phân phối;
- xấp xỉ này có thể kém đối với các cỡ mẫu nhỏ;
- tuy nhiên không thể giả định rằng có phân phối t như chúng ta có thể giả sử trong trường hợp hồi quy bình thường.
Bây giờ, trên một mức độ trực quan, nó không có vẻ hợp lý với tôi rằng nếu được phân phối xấp xỉ bình thường, nó có thể trên thực tế có một số phân phối mà về cơ bản là " t -like", ngay cả khi nó không phải là chính xác t . Vì vậy, việc sử dụng phân phối t ở đây không có vẻ điên rồ. Nhưng những gì tôi muốn biết là như sau:
- Trên thực tế có lý thuyết thống kê cho thấy thực sự tuân theo phân phối t trong trường hợp hồi quy logistic và / hoặc các mô hình tuyến tính tổng quát khác không?
- Nếu không có lý thuyết như vậy, có ít nhất các bài báo ngoài kia cho thấy rằng giả sử phân phối theo cách này hoạt động tốt, hoặc thậm chí tốt hơn, giả sử phân phối bình thường?
Tổng quát hơn, có bất kỳ sự hỗ trợ thực tế nào cho những gì GLIMMIX đang làm ở đây ngoài trực giác mà về cơ bản nó có thể hợp lý không?
Mã R:
summary(glm(y ~ x, data=dat, family=binomial))
Đầu ra R:
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
Mã SAS:
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
Đầu ra SAS (chỉnh sửa / viết tắt):
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
Trên thực tế, lần đầu tiên tôi nhận thấy điều này vềcác mô hình hồi quy logistichiệu ứng hỗn hợptrong PROC GLIMMIX, và sau đó phát hiện ra rằng GLIMMIX cũng thực hiện điều này với hồi quy logistic "vanilla".
PROC LOGISTIC