Câu hỏi của bạn, như đã nêu, đã được trả lời bởi @ francium87d. So sánh độ lệch còn lại so với phân phối chi bình phương thích hợp cấu thành thử nghiệm mô hình được trang bị so với mô hình bão hòa và cho thấy, trong trường hợp này, sự thiếu phù hợp đáng kể.
Tuy nhiên, nó có thể giúp xem xét kỹ hơn dữ liệu và mô hình để hiểu rõ hơn về ý nghĩa của mô hình đó là thiếu phù hợp:
d = read.table(text=" age education wantsMore notUsing using
<25 low yes 53 6
<25 low no 10 4
<25 high yes 212 52
<25 high no 50 10
25-29 low yes 60 14
25-29 low no 19 10
25-29 high yes 155 54
25-29 high no 65 27
30-39 low yes 112 33
30-39 low no 77 80
30-39 high yes 118 46
30-39 high no 68 78
40-49 low yes 35 6
40-49 low no 46 48
40-49 high yes 8 8
40-49 high no 12 31", header=TRUE, stringsAsFactors=FALSE)
d = d[order(d[,3],d[,2]), c(3,2,1,5,4)]
library(binom)
d$proportion = with(d, using/(using+notUsing))
d$sum = with(d, using+notUsing)
bCI = binom.confint(x=d$using, n=d$sum, methods="exact")
m = glm(cbind(using,notUsing)~age+education+wantsMore, d, family=binomial)
preds = predict(m, new.data=d[,1:3], type="response")
windows()
par(mar=c(5, 8, 4, 2))
bp = barplot(d$proportion, horiz=T, xlim=c(0,1), xlab="proportion",
main="Birth control usage")
box()
axis(side=2, at=bp, labels=paste(d[,1], d[,2], d[,3]), las=1)
arrows(y0=bp, x0=bCI[,5], x1=bCI[,6], code=3, angle=90, length=.05)
points(x=preds, y=bp, pch=15, col="red")
Hình vẽ biểu thị tỷ lệ quan sát được của phụ nữ trong mỗi nhóm thể loại đang sử dụng biện pháp tránh thai, cùng với khoảng tin cậy chính xác 95%. Tỷ lệ dự đoán của mô hình được phủ màu đỏ. Chúng ta có thể thấy rằng hai tỷ lệ dự đoán nằm ngoài 95% các TCTD và năm bao phấn nằm ở hoặc rất gần giới hạn của các TCTD tương ứng. Đó là bảy trong số mười sáu ( ) ngoài mục tiêu. Vì vậy, dự đoán của mô hình không khớp với dữ liệu quan sát rất tốt. 44%
Làm thế nào mô hình có thể phù hợp hơn? Có lẽ có sự tương tác giữa các biến có liên quan. Hãy thêm tất cả các tương tác hai chiều và đánh giá sự phù hợp:
m2 = glm(cbind(using,notUsing)~(age+education+wantsMore)^2, d, family=binomial)
summary(m2)
# ...
# Null deviance: 165.7724 on 15 degrees of freedom
# Residual deviance: 2.4415 on 3 degrees of freedom
# AIC: 99.949
#
# Number of Fisher Scoring iterations: 4
1-pchisq(2.4415, df=3) # [1] 0.4859562
drop1(m2, test="LRT")
# Single term deletions
#
# Model:
# cbind(using, notUsing) ~ (age + education + wantsMore)^2
# Df Deviance AIC LRT Pr(>Chi)
# <none> 2.4415 99.949
# age:education 3 10.8240 102.332 8.3826 0.03873 *
# age:wantsMore 3 13.7639 105.272 11.3224 0.01010 *
# education:wantsMore 1 5.7983 101.306 3.3568 0.06693 .
Giá trị p cho việc thiếu kiểm tra sự phù hợp cho mô hình này hiện là . Nhưng chúng ta có thực sự cần tất cả những điều khoản tương tác thêm không? Các lệnh cho thấy các kết quả của các cuộc thử nghiệm mô hình lồng nhau mà không có họ. Sự tương tác giữa và không hoàn toàn đáng kể, nhưng dù sao thì tôi cũng sẽ ổn với nó trong mô hình. Vì vậy, hãy xem các dự đoán từ mô hình này so với dữ liệu như thế nào: 0.486drop1()
education
wantsMore
Chúng không hoàn hảo, nhưng chúng ta không nên cho rằng tỷ lệ quan sát được là sự phản ánh hoàn hảo của quá trình tạo dữ liệu thực sự. Chúng trông giống như chúng đang nảy xung quanh số tiền thích hợp (chính xác hơn là dữ liệu đang nảy xung quanh các dự đoán, tôi cho rằng).