Bất cứ ai cũng có thể cho tôi biết làm thế nào để diễn giải các lô 'dư so với được trang bị', 'q-q bình thường', 'vị trí tỷ lệ' và 'dư so với đòn bẩy' không? Tôi đang lắp một GLM nhị thức, lưu nó và sau đó vẽ nó.
Bất cứ ai cũng có thể cho tôi biết làm thế nào để diễn giải các lô 'dư so với được trang bị', 'q-q bình thường', 'vị trí tỷ lệ' và 'dư so với đòn bẩy' không? Tôi đang lắp một GLM nhị thức, lưu nó và sau đó vẽ nó.
Câu trả lời:
R
không có một plot.glm()
phương pháp riêng biệt . Khi bạn phù hợp với một mô hình với glm()
và chạy plot()
, nó gọi là "cốt truyện" , phù hợp với các mô hình tuyến tính (nghĩa là với một thuật ngữ lỗi được phân phối thông thường).
Nói chung, ý nghĩa của các ô này (ít nhất là đối với các mô hình tuyến tính) có thể được học trong các luồng khác nhau trên CV (ví dụ: Residuals vs. Fited ; qq-plots ở một số nơi: 1 , 2 , 3 ; Scale-Location ; Residuals vs Đòn bẩy ). Tuy nhiên, những diễn giải nói chung không hợp lệ khi mô hình được đề cập là một hồi quy logistic.
Cụ thể hơn, các cốt truyện thường sẽ 'trông buồn cười' và khiến mọi người tin rằng có một cái gì đó không đúng với mô hình khi nó hoàn toàn ổn. Chúng ta có thể thấy điều này bằng cách nhìn vào các ô đó với một vài mô phỏng đơn giản mà chúng ta biết mô hình là chính xác:
# we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }
set.seed(10) # this makes the simulation exactly reproducible
x = runif(20, min=0, max=10) # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x # this is the true data generating process
p = lo2p(lo) # here I convert the log odds to probabilities
y = rbinom(20, size=1, prob=p) # this generates the Y data
mod = glm(y~x, family=binomial) # here I fit the model
summary(mod) # the model captures the DGP very well & has no
# ... # obvious problems:
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.76225 -0.85236 -0.05011 0.83786 1.59393
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -2.7370 1.4062 -1.946 0.0516 .
# x 0.6799 0.3261 2.085 0.0371 *
# ...
#
# Null deviance: 27.726 on 19 degrees of freedom
# Residual deviance: 21.236 on 18 degrees of freedom
# AIC: 25.236
#
# Number of Fisher Scoring iterations: 4
Bây giờ hãy xem xét các lô chúng tôi nhận được từ plot.lm()
:
Cả hai Residuals vs Fitted
và các Scale-Location
ô trông giống như có vấn đề với mô hình, nhưng chúng tôi biết không có vấn đề gì. Các lô này, dành cho các mô hình tuyến tính, đơn giản là thường gây hiểu nhầm khi được sử dụng với mô hình hồi quy logistic.
Hãy xem xét một ví dụ khác:
set.seed(10)
x2 = rep(c(1:4), each=40) # X is a factor with 4 levels
lo = -3 + .7*x2
p = lo2p(lo)
y = rbinom(160, size=1, prob=p)
mod = glm(y~as.factor(x2), family=binomial)
summary(mod) # again, everything looks good:
# ...
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.0108 -0.8446 -0.3949 -0.2250 2.7162
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -3.664 1.013 -3.618 0.000297 ***
# as.factor(x2)2 1.151 1.177 0.978 0.328125
# as.factor(x2)3 2.816 1.070 2.632 0.008481 **
# as.factor(x2)4 3.258 1.063 3.065 0.002175 **
# ...
#
# Null deviance: 160.13 on 159 degrees of freedom
# Residual deviance: 133.37 on 156 degrees of freedom
# AIC: 141.37
#
# Number of Fisher Scoring iterations: 6
Bây giờ tất cả các lô trông lạ.
Vì vậy, những âm mưu này cho bạn thấy những gì?
Residuals vs Fitted
âm mưu có thể giúp bạn xem, ví dụ, nếu có xu hướng cong mà bạn bỏ qua. Nhưng sự phù hợp của hồi quy logistic là bản chất cong, do đó bạn có thể có các xu hướng tìm kiếm kỳ lạ trong phần dư mà không có gì không ổn. Normal Q-Q
âm mưu giúp bạn phát hiện nếu dư của bạn được phân phối bình thường. Nhưng phần dư sai lệch không phải được phân phối bình thường cho mô hình là hợp lệ, do đó, tính quy tắc / tính không quy tắc của phần dư không nhất thiết phải cho bạn biết bất cứ điều gì. Scale-Location
âm mưu có thể giúp bạn xác định các biến ngẫu nhiên. Nhưng bản chất mô hình hồi quy logistic là khá nhiều dị thể. Residuals vs Leverage
có thể giúp bạn xác định các ngoại lệ có thể. Nhưng các ngoại lệ trong hồi quy logistic không nhất thiết phải biểu hiện giống như trong hồi quy tuyến tính, do đó, âm mưu này có thể hoặc không hữu ích trong việc xác định chúng. Bài học về nhà đơn giản ở đây là những lô này có thể rất khó sử dụng để giúp bạn hiểu những gì đang xảy ra với mô hình hồi quy logistic của bạn. Có lẽ tốt nhất là mọi người không nên nhìn vào các lô này khi chạy hồi quy logistic, trừ khi chúng có chuyên môn đáng kể.
Đọc thêm về các giả định của hồi quy vì trong nhiều khía cạnh có sự tương tự (ví dụ ở đây , hoặc hướng dẫn về hồi quy trong R ở đây ).