Giải thích cốt truyện (glm.model)


30

Bất cứ ai cũng có thể cho tôi biết làm thế nào để diễn giải các lô 'dư so với được trang bị', 'q-q bình thường', 'vị trí tỷ lệ' và 'dư so với đòn bẩy' không? Tôi đang lắp một GLM nhị thức, lưu nó và sau đó vẽ nó.


4
Bạn có biết làm thế nào để giải thích những âm mưu đó khi xử lý một hồi quy tuyến tính thông thường? Bởi vì đó nên là điểm khởi đầu của bạn.
Steve S

Câu trả lời:


55

Rkhông có một plot.glm()phương pháp riêng biệt . Khi bạn phù hợp với một mô hình với glm()và chạy plot(), nó gọi là "cốt truyện" , phù hợp với các mô hình tuyến tính (nghĩa là với một thuật ngữ lỗi được phân phối thông thường).

Nói chung, ý nghĩa của các ô này (ít nhất là đối với các mô hình tuyến tính) có thể được học trong các luồng khác nhau trên CV (ví dụ: Residuals vs. Fited ; qq-plots ở một số nơi: 1 , 2 , 3 ; Scale-Location ; Residuals vs Đòn bẩy ). Tuy nhiên, những diễn giải nói chung không hợp lệ khi mô hình được đề cập là một hồi quy logistic.

Cụ thể hơn, các cốt truyện thường sẽ 'trông buồn cười' và khiến mọi người tin rằng có một cái gì đó không đúng với mô hình khi nó hoàn toàn ổn. Chúng ta có thể thấy điều này bằng cách nhìn vào các ô đó với một vài mô phỏng đơn giản mà chúng ta biết mô hình là chính xác:

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

Bây giờ hãy xem xét các lô chúng tôi nhận được từ plot.lm():

nhập mô tả hình ảnh ở đây

Cả hai Residuals vs Fittedvà các Scale-Locationô trông giống như có vấn đề với mô hình, nhưng chúng tôi biết không có vấn đề gì. Các lô này, dành cho các mô hình tuyến tính, đơn giản là thường gây hiểu nhầm khi được sử dụng với mô hình hồi quy logistic.

Hãy xem xét một ví dụ khác:

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

nhập mô tả hình ảnh ở đây

Bây giờ tất cả các lô trông lạ.

Vì vậy, những âm mưu này cho bạn thấy những gì?

  • Các Residuals vs Fittedâm mưu có thể giúp bạn xem, ví dụ, nếu có xu hướng cong mà bạn bỏ qua. Nhưng sự phù hợp của hồi quy logistic là bản chất cong, do đó bạn có thể có các xu hướng tìm kiếm kỳ lạ trong phần dư mà không có gì không ổn.
  • Các Normal Q-Qâm mưu giúp bạn phát hiện nếu dư của bạn được phân phối bình thường. Nhưng phần dư sai lệch không phải được phân phối bình thường cho mô hình là hợp lệ, do đó, tính quy tắc / tính không quy tắc của phần dư không nhất thiết phải cho bạn biết bất cứ điều gì.
  • Các Scale-Locationâm mưu có thể giúp bạn xác định các biến ngẫu nhiên. Nhưng bản chất mô hình hồi quy logistic là khá nhiều dị thể.
  • Việc Residuals vs Leveragecó thể giúp bạn xác định các ngoại lệ có thể. Nhưng các ngoại lệ trong hồi quy logistic không nhất thiết phải biểu hiện giống như trong hồi quy tuyến tính, do đó, âm mưu này có thể hoặc không hữu ích trong việc xác định chúng.

Bài học về nhà đơn giản ở đây là những lô này có thể rất khó sử dụng để giúp bạn hiểu những gì đang xảy ra với mô hình hồi quy logistic của bạn. Có lẽ tốt nhất là mọi người không nên nhìn vào các lô này khi chạy hồi quy logistic, trừ khi chúng có chuyên môn đáng kể.


5
Thật đau buồn đây là một phản ứng tuyệt vời.
d8aninja

@gung Bạn có thể vui lòng nói chúng tôi có thể làm gì nếu đó là một glm? Có một sự thay thế cho QQ, Residual vs Fited không? Ví dụ: tôi đã vẽ một GLM liên kết poisson, nhưng tôi không biết cách phân tích nếu nó phù hợp
GRS

2
@GRS, hãy thử đọc .
gung - Phục hồi Monica

@ Tất cả các câu trả lời của bạn là chi tiết và rõ ràng. Ngoài việc đọc từ nhiều nguồn bao gồm trang web này, bạn có thể giới thiệu một hoặc hai cuốn sách / trang web tốt để có được 'chuyên môn đáng kể' trong việc hiểu các lô chẩn đoán không? Tôi hiểu rằng chỉ có vài kỹ năng chúng ta có thể có được khi thực hành và trải nghiệm nhưng nếu có bất kỳ cuốn sách / trang web cụ thể nào bao gồm các chi tiết chuyên sâu nếu bạn có thể tham khảo, nó sẽ giúp ích rất nhiều.
Bác sĩ Nisha Arora

@DrNishaArora, không thực sự mà tôi biết. Có một số cuốn sách có liên quan đến LR, nhưng chúng sẽ không dành nhiều thời gian cho những mảnh đất này, vì những lý do đã nêu.
gung - Phục hồi Monica

0
  1. Phần dư so với trang bị - không nên có các mẫu mạnh (mẫu nhẹ không phải là vấn đề, xem câu trả lời của @ gung) và không có ngoại lệ, phần dư nên được phân phối ngẫu nhiên quanh 0.
  2. QQ bình thường - phần dư nên đi xung quanh đường chéo, nghĩa là nên được phân phối bình thường (xem wiki cho cốt truyện QQ ). Âm mưu này giúp kiểm tra nếu chúng là khoảng bình thường.
  3. Vị trí tỷ lệ - như bạn có thể thấy, trên trục Y cũng có các phần dư (như trong Residuals so với cốt truyện được trang bị), nhưng chúng được chia tỷ lệ, do đó, nó tương tự như (1), nhưng trong một số trường hợp, nó hoạt động tốt hơn.
  4. Residuals vs Leverage - nó giúp chẩn đoán các trường hợp ngoại lệ. Như trong các ô trước, các trường hợp ngoại lệ được đánh số, nhưng trên ô này nếu có bất kỳ trường hợp nào khác với phần còn lại của dữ liệu, chúng được vẽ bên dưới các vạch đỏ mỏng (kiểm tra wiki trên khoảng cách của Cook ).

Đọc thêm về các giả định của hồi quy vì trong nhiều khía cạnh có sự tương tự (ví dụ ở đây , hoặc hướng dẫn về hồi quy trong R ở đây ).


2
Phản hồi này không chính xác trong ngữ cảnh của glm, cũng như được đặt ra bởi @gung, trong phản hồi ở trên. Nếu bạn đang tìm kiếm một câu trả lời cho câu hỏi này, HÃY TRẢ LỜI NÀY. Nếu bạn là tác giả của phản hồi này, hãy xem câu trả lời ở trên bằng gung. Nếu bạn đồng ý, bạn nên xem xét xóa phản hồi này, vì nó gây hiểu nhầm.
colin

@colin bạn có muốn bình luận chính xác những gì sai trong quan điểm của bạn với câu trả lời này? Sự khác biệt duy nhất giữa câu trả lời của tôi và câu trả lời thứ hai là gung đi vào chi tiết hơn ...
Tim

3
bạn mô tả cách sử dụng các ô này trong bối cảnh hồi quy tuyến tính. gung mô tả lý do tại sao những giải thích này thất bại trong trường hợp này, bởi vì chúng đang được áp dụng cho một mô hình glm nhị phân. Vì vậy, nếu người dùng giải thích các lô chẩn đoán này như bạn đề xuất (và các đề xuất của bạn sẽ hữu ích trong trường hợp lm), họ sẽ kết luận sai rằng mô hình của họ vi phạm các giả định của glm, trong khi thực tế thì không.
colin

bạn viết, "Phần dư so với trang bị - không nên có mẫu và không có phần ngoại lệ, phần dư nên được phân phối ngẫu nhiên vào khoảng 0." gung viết, "Ví dụ, cốt truyện Residuals vs Fited có thể giúp bạn thấy, nếu có những xu hướng cong mà bạn đã bỏ lỡ. Nhưng sự phù hợp của hồi quy logistic là tự nhiên, vì vậy bạn có thể có những xu hướng kỳ quặc trong phần dư mà không có gì không ổn. " ... một trong các bạn phải sai.
colin

2
Tôi đồng ý, đây không phải là màu đen và trắng, nhưng có nhiều trường hợp có xu hướng mạnh mẽ, nhưng mô hình được chỉ định là hoàn toàn phù hợp theo giả định của glm cụ thể. Do đó, khẳng định, "không nên có mô hình và không có ngoại lệ, phần dư nên được phân phối ngẫu nhiên vào khoảng 0." dễ dàng hiểu rằng nếu có một mẫu, bạn đã vi phạm các giả định mô hình. Đây không phải là trường hợp.
colin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.