Kiểm tra mô hình hồi quy logistic bằng cách sử dụng độ lệch dư và mức độ tự do


8

Tôi đã đọc trang này trên Princeton.edu . Họ đang thực hiện hồi quy logistic (với R). Tại một số thời điểm, họ tính toán xác suất nhận được độ lệch còn lại cao hơn mức họ có trên phân phối với mức độ tự do bằng với mức độ tự do của mô hình. Sao chép-dán từ trang web của họ ...χ2

> glm( cbind(using,notUsing) ~ age + hiEduc + noMore, family=binomial)

Call:  glm(formula = cbind(using, notUsing) ~ age + hiEduc + noMore,      
     family = binomial) 

Coefficients:
(Intercept)     age25-29     age30-39     age40-49       hiEduc       noMore  
    -1.9662       0.3894       0.9086       1.1892       0.3250       0.8330  

Degrees of Freedom: 15 Total (i.e. Null);  10 Residual
Null Deviance:      165.8 
Residual Deviance: 29.92        AIC: 113.4 

Độ lệch còn lại của 29,92 trên 10 df rất có ý nghĩa:

> 1-pchisq(29.92,10)
[1] 0.0008828339

vì vậy chúng ta cần một mô hình tốt hơn


Tại sao nó có ý nghĩa để tính toán 1-pchisq(29.92,10)và tại sao xác suất thấp chỉ ra rằng có điều gì đó không ổn với mô hình của họ?

Câu trả lời:


7

Họ đang sử dụng thử nghiệm sai lệch được hiển thị bên dưới:

D(y)=2(β^;y)+2(θ^(s);y)

Ở đây, đại diện cho mô hình quan tâm được trang bị và đại diện cho mô hình bão hòa. Khả năng đăng nhập của mô hình bão hòa là (thường xuyên hơn không) , do đó bạn còn lại với độ lệch còn lại của mô hình mà chúng phù hợp ( ). Kiểm tra độ lệch này xấp xỉ bằng bình phương với bậc tự do ( là các quan sát và là số lượng biến được trang bị). Bạn có và nên bài kiểm tra sẽ xấp xỉ q (s)029,92n-pnpn=16p=6χ 2 10β^θ^(s)029.92npnpn=16p=6χ102. Điểm không chính của bài kiểm tra là mô hình được trang bị của bạn phù hợp với dữ liệu và không có lỗi Misfit mà bạn đã bỏ lỡ bất kỳ nguồn biến thể nào. Trong thử nghiệm trên, bạn từ chối null và kết quả là bạn đã bỏ lỡ một cái gì đó trong mô hình bạn trang bị. Lý do sử dụng thử nghiệm này là mô hình bão hòa sẽ phù hợp với dữ liệu một cách hoàn hảo vì vậy nếu bạn ở trong trường hợp bạn không từ chối null giữa mô hình được trang bị và mô hình bão hòa, điều đó cho thấy bạn đã bỏ lỡ các nguồn dữ liệu lớn biến thể trong mô hình của bạn.


3

Câu hỏi của bạn, như đã nêu, đã được trả lời bởi @ francium87d. So sánh độ lệch còn lại so với phân phối chi bình phương thích hợp cấu thành thử nghiệm mô hình được trang bị so với mô hình bão hòa và cho thấy, trong trường hợp này, sự thiếu phù hợp đáng kể.


Tuy nhiên, nó có thể giúp xem xét kỹ hơn dữ liệu và mô hình để hiểu rõ hơn về ý nghĩa của mô hình đó là thiếu phù hợp:

d = read.table(text=" age education wantsMore notUsing using 
   <25       low       yes       53     6
   <25       low        no       10     4
   <25      high       yes      212    52
   <25      high        no       50    10
 25-29       low       yes       60    14
 25-29       low        no       19    10
 25-29      high       yes      155    54
 25-29      high        no       65    27
 30-39       low       yes      112    33
 30-39       low        no       77    80
 30-39      high       yes      118    46
 30-39      high        no       68    78
 40-49       low       yes       35     6
 40-49       low        no       46    48
 40-49      high       yes        8     8
 40-49      high        no       12    31", header=TRUE, stringsAsFactors=FALSE)
d = d[order(d[,3],d[,2]), c(3,2,1,5,4)]

library(binom)
d$proportion = with(d, using/(using+notUsing))
d$sum        = with(d, using+notUsing)
bCI          = binom.confint(x=d$using, n=d$sum, methods="exact")

m     = glm(cbind(using,notUsing)~age+education+wantsMore, d, family=binomial)
preds = predict(m, new.data=d[,1:3], type="response")

windows()
  par(mar=c(5, 8, 4, 2))
  bp = barplot(d$proportion, horiz=T, xlim=c(0,1), xlab="proportion",
               main="Birth control usage")
  box()
  axis(side=2, at=bp, labels=paste(d[,1], d[,2], d[,3]), las=1)
  arrows(y0=bp, x0=bCI[,5], x1=bCI[,6], code=3, angle=90, length=.05)
  points(x=preds, y=bp, pch=15, col="red")

nhập mô tả hình ảnh ở đây

Hình vẽ biểu thị tỷ lệ quan sát được của phụ nữ trong mỗi nhóm thể loại đang sử dụng biện pháp tránh thai, cùng với khoảng tin cậy chính xác 95%. Tỷ lệ dự đoán của mô hình được phủ màu đỏ. Chúng ta có thể thấy rằng hai tỷ lệ dự đoán nằm ngoài 95% các TCTD và năm bao phấn nằm ở hoặc rất gần giới hạn của các TCTD tương ứng. Đó là bảy trong số mười sáu ( ) ngoài mục tiêu. Vì vậy, dự đoán của mô hình không khớp với dữ liệu quan sát rất tốt. 44%

Làm thế nào mô hình có thể phù hợp hơn? Có lẽ có sự tương tác giữa các biến có liên quan. Hãy thêm tất cả các tương tác hai chiều và đánh giá sự phù hợp:

m2 = glm(cbind(using,notUsing)~(age+education+wantsMore)^2, d, family=binomial)
summary(m2)
# ...
#     Null deviance: 165.7724  on 15  degrees of freedom
# Residual deviance:   2.4415  on  3  degrees of freedom
# AIC: 99.949
# 
# Number of Fisher Scoring iterations: 4
1-pchisq(2.4415, df=3)  # [1] 0.4859562
drop1(m2, test="LRT")
# Single term deletions
# 
# Model:
# cbind(using, notUsing) ~ (age + education + wantsMore)^2
#                     Df Deviance     AIC     LRT Pr(>Chi)  
# <none>                   2.4415  99.949                   
# age:education        3  10.8240 102.332  8.3826  0.03873 *
# age:wantsMore        3  13.7639 105.272 11.3224  0.01010 *
# education:wantsMore  1   5.7983 101.306  3.3568  0.06693 .

Giá trị p cho việc thiếu kiểm tra sự phù hợp cho mô hình này hiện là . Nhưng chúng ta có thực sự cần tất cả những điều khoản tương tác thêm không? Các lệnh cho thấy các kết quả của các cuộc thử nghiệm mô hình lồng nhau mà không có họ. Sự tương tác giữa và không hoàn toàn đáng kể, nhưng dù sao thì tôi cũng sẽ ổn với nó trong mô hình. Vì vậy, hãy xem các dự đoán từ mô hình này so với dữ liệu như thế nào: 0.486drop1()educationwantsMore

nhập mô tả hình ảnh ở đây

Chúng không hoàn hảo, nhưng chúng ta không nên cho rằng tỷ lệ quan sát được là sự phản ánh hoàn hảo của quá trình tạo dữ liệu thực sự. Chúng trông giống như chúng đang nảy xung quanh số tiền thích hợp (chính xác hơn là dữ liệu đang nảy xung quanh các dự đoán, tôi cho rằng).


2

Tôi không tin rằng thống kê sai lệch còn lại có phân phối . Tôi nghĩ rằng đó là một phân phối suy biến vì lý thuyết tiệm cận không áp dụng khi mức độ tự do tăng cùng tốc độ với kích thước mẫu. Ở bất kỳ giá nào, tôi nghi ngờ rằng thử nghiệm có đủ sức mạnh và khuyến khích các thử nghiệm có định hướng như thử nghiệm tuyến tính bằng cách sử dụng các hàm hồi quy và thử nghiệm tương tác.χ2


1
Tôi nghĩ bởi vì trong trường hợp này tất cả các dự đoán là phân loại, không. mức độ tự do của mô hình bão hòa sẽ không tăng theo kích thước mẫu, vì vậy phương pháp tiệm cận có ý nghĩa. Kích thước mẫu vẫn còn khá nhỏ.
Scortchi - Tái lập Monica

Không chắc đó là nó. Df của các tham số mô hình là cố định nhưng df của phần dư " " là trừ đi. nχ2n
Frank Harrell

Trong trường hợp này, dữ liệu bao gồm 1607 cá nhân trong bảng dự phòng & thử nghiệm đang so sánh mô hình 6 tham số với mô hình bão hòa 16 tham số (chứ không phải mô hình tham số 1607).
Scortchi - Tái lập Monica

Sau đó, nó không nên được dán nhãn là dư . χ2
Frank Harrell

1
Tôi đồng ý điều không may của thuật ngữ này: glmđưa ra một "độ lệch còn lại" khác nhau khi dữ liệu được nhóm lại từ khi chúng không - và một "độ lệch null" khác cho vấn đề đó.
Scortchi - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.