kiểm tra hệ số hồi quy logistic bằng cách sử dụng


12

Tóm tắt: Có lý thuyết thống kê nào hỗ trợ việc sử dụng phân phối (với mức độ tự do dựa trên độ lệch còn lại) cho các thử nghiệm hệ số hồi quy logistic, thay vì phân phối chuẩn thông thường không?t


Cách đây một thời gian, tôi phát hiện ra rằng khi điều chỉnh mô hình hồi quy logistic trong SAS PROC GLIMMIX, theo cài đặt mặc định, các hệ số hồi quy logistic được kiểm tra bằng phân phối thay vì phân phối chuẩn thông thường. Nghĩa là, GLIMMIX báo cáo một cột có tỷ lệ (mà tôi sẽ gọi trong phần còn lại của câu hỏi này ), nhưng cũng báo cáo cột "bậc tự do", cũng như giá trị dựa trên giả định phân phối chot1 zptzβ^1/var(β^1)zptzvới mức độ tự do dựa trên độ lệch còn lại - nghĩa là mức độ tự do = tổng số quan sát trừ đi số lượng tham số. Ở dưới cùng của câu hỏi này, tôi cung cấp một số mã và đầu ra trong R và SAS để trình diễn và so sánh. 22

Điều này làm tôi bối rối, vì tôi nghĩ rằng đối với các mô hình tuyến tính tổng quát như hồi quy logistic, không có lý thuyết thống kê nào hỗ trợ việc sử dụng phân phối trong trường hợp này. Thay vào đó tôi nghĩ những gì chúng ta biết về trường hợp này làt

  • là "xấp xỉ" thường được phân phối;z
  • xấp xỉ này có thể kém đối với các cỡ mẫu nhỏ;
  • tuy nhiên không thể giả định rằng có phân phối t như chúng ta có thể giả sử trong trường hợp hồi quy bình thường.zt

Bây giờ, trên một mức độ trực quan, nó không có vẻ hợp lý với tôi rằng nếu được phân phối xấp xỉ bình thường, nó có thể trên thực tế có một số phân phối mà về cơ bản là " t -like", ngay cả khi nó không phải là chính xác t . Vì vậy, việc sử dụng phân phối t ở đây không có vẻ điên rồ. Nhưng những gì tôi muốn biết là như sau:zttt

  1. Trên thực tế có lý thuyết thống kê cho thấy thực sự tuân theo phân phối t trong trường hợp hồi quy logistic và / hoặc các mô hình tuyến tính tổng quát khác không?zt
  2. Nếu không có lý thuyết như vậy, có ít nhất các bài báo ngoài kia cho thấy rằng giả sử phân phối theo cách này hoạt động tốt, hoặc thậm chí tốt hơn, giả sử phân phối bình thường?t

Tổng quát hơn, có bất kỳ sự hỗ trợ thực tế nào cho những gì GLIMMIX đang làm ở đây ngoài trực giác mà về cơ bản nó có thể hợp lý không?

Mã R:

summary(glm(y ~ x, data=dat, family=binomial))

Đầu ra R:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

Mã SAS:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

Đầu ra SAS (chỉnh sửa / viết tắt):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

Trên thực tế, lần đầu tiên tôi nhận thấy điều này vềcác mô hình hồi quy logistichiệu ứng hỗn hợptrong PROC GLIMMIX, và sau đó phát hiện ra rằng GLIMMIX cũng thực hiện điều này với hồi quy logistic "vanilla".1

2n


PROC LOGISTICz

1
SPSS xuất hiện để kiểm tra các mô hình hiệu ứng hỗn hợp logistic theo cách tương tự :(
Richard Border

Câu trả lời:


6

Trên thực tế có lý thuyết thống kê cho thấy z thực sự tuân theo phân phối trong trường hợp hồi quy logistic và / hoặc các mô hình tuyến tính tổng quát khác không?

Theo như tôi biết, không có lý thuyết nào như vậy tồn tại. Tôi thường xuyên thấy các đối số lượn sóng bằng tay và đôi khi các thí nghiệm mô phỏng để hỗ trợ cách tiếp cận như vậy cho một số gia đình GLM cụ thể hoặc một số khác. Các mô phỏng có sức thuyết phục hơn so với các đối số bằng tay.

Nếu không có lý thuyết như vậy, có ít nhất các bài báo ngoài kia cho thấy rằng giả sử phân phối theo cách này hoạt động tốt, hoặc thậm chí tốt hơn, giả sử phân phối bình thường?

Không phải là tôi nhớ lại thấy, nhưng đó không phải là nói nhiều.

Các mô phỏng mẫu nhỏ (giới hạn) của riêng tôi đề nghị giả sử phân phối t trong trường hợp logistic có thể tồi tệ hơn đáng kể so với giả định bình thường:

nhập mô tả hình ảnh ở đây

Ví dụ, đây là kết quả (như sơ đồ QQ) của 10000 mô phỏng thống kê Wald cho hồi quy logistic thông thường (nghĩa là hiệu ứng cố định, không trộn lẫn) trên 15 quan sát x không thể thay đổi trong đó các tham số dân số đều bằng không. Dòng màu đỏ là dòng y = x. Như bạn thấy, trong mỗi trường hợp, mức bình thường khá gần đúng với một phạm vi tốt ở giữa - cho đến khoảng 5 phần trăm và 95 phần trăm (1,6-1,7ish), và sau đó bên ngoài phân phối thực tế của thống kê kiểm tra là đáng kể đuôi nhẹ hơn bình thường.

Vì vậy, đối với trường hợp logistic, tôi muốn nói bất kỳ đối số nào sử dụng t- thay vì z- dường như không thể thành công trên cơ sở này, vì các mô phỏng như thế này có xu hướng cho thấy kết quả có thể có xu hướng nằm trên đuôi nhẹ hơn bên bình thường, chứ không phải là đuôi nặng hơn.

. trường hợp một số null là đúng để xem phân phối nào sẽ sử dụng theo null). Tôi rất muốn nghe làm thế nào họ đi ra cho bạn.]


1
t

4

Dưới đây là một vài mô phỏng bổ sung chỉ để mở rộng một chút về những gì Glen_b đã trình bày.

[-1,1]N= =10,20,40,80p= =0,5,0,731,0,881,0,952

ztdf= =N-2z= =0p= =1QQsim

ptppLịch sử

t


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.