Đánh giá hồi quy logistic và giải thích tính tốt của sự phù hợp của Hosmer-Lemeshow


24

Như chúng ta đã biết, có 2 phương pháp để đánh giá mô hình hồi quy logistic và chúng đang thử nghiệm những thứ rất khác nhau

  1. Sức mạnh dự đoán:

    Lấy một thống kê đo lường mức độ bạn có thể dự đoán biến phụ thuộc dựa trên các biến độc lập. Pseudo R ^ 2 nổi tiếng là McFadden (1974) và Cox và Snell (1989).

  2. Thống kê mức độ phù hợp

    Bài kiểm tra cho biết liệu bạn có thể làm tốt hơn nữa hay không bằng cách làm cho mô hình trở nên phức tạp hơn, đó thực sự là kiểm tra xem có bất kỳ sự phi tuyến tính hoặc tương tác nào không.

    Tôi đã thực hiện cả hai thử nghiệm trên mô hình của mình, đã thêm phương trình bậc hai và tương tác
    :

    >summary(spec_q2)
    
    Call:
    glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + 
     I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, 
     family = binomial())
    
     Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
    (Intercept)  0.955431   8.838584   0.108   0.9139    
    Top          0.311891   0.189793   1.643   0.1003    
    Right       -1.015460   0.502736  -2.020   0.0434 *  
    Left        -0.962143   0.431534  -2.230   0.0258 *  
    Bottom       0.198631   0.157242   1.263   0.2065    
    I(Top^2)    -0.003213   0.002114  -1.520   0.1285    
    I(Left^2)   -0.054258   0.008768  -6.188 6.09e-10 ***
    I(Bottom^2)  0.003725   0.001782   2.091   0.0366 *  
    Top:Right    0.012290   0.007540   1.630   0.1031    
    Top:Bottom   0.004536   0.002880   1.575   0.1153    
    Right:Left  -0.044283   0.015983  -2.771   0.0056 ** 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1
    (Dispersion parameter for binomial family taken to be 1)
    Null deviance: 3350.3  on 2799  degrees of freedom
    Residual deviance: 1984.6  on 2789  degrees of freedom
    AIC: 2006.6
    

và sức mạnh dự đoán như dưới đây, MaFadden là 0,004 và giá trị trong khoảng 0,2 ~ 0,4 nên được đưa ra để thể hiện sự phù hợp rất tốt của mô hình (Louviere et al (2000), Domenich và McFadden (1975)):

 > PseudoR2(spec_q2)
    McFadden     Adj.McFadden        Cox.Snell       Nagelkerke McKelvey.Zavoina           Effron            Count        Adj.Count 
   0.4076315        0.4004680        0.3859918        0.5531859        0.6144487        0.4616466        0.8489286        0.4712500 
         AIC    Corrected.AIC 
2006.6179010     2006.7125925 

và số liệu thống kê mức độ phù hợp:

 > hoslem.test(result,phat,g=8)

     Hosmer and Lemeshow goodness of fit (GOF) test

  data:  result, phat
  X-squared = 2800, df = 6, p-value < 2.2e-16

Theo hiểu biết của tôi, GOF thực sự đang thử nghiệm giả thuyết không và thay thế sau đây:

  H0: The models does not need interaction and non-linearity
  H1: The models needs interaction and non-linearity

Do các mô hình của tôi đã thêm tương tác, nên phi tuyến tính và giá trị p cho thấy H0 nên bị loại bỏ, vì vậy tôi đã đi đến kết luận rằng mô hình của tôi cần tương tác, thực sự phi tuyến tính. Hy vọng giải thích của tôi là chính xác và cảm ơn cho bất kỳ lời khuyên trước, cảm ơn.



2
Nhìn vào bảng bên dưới tốt hơn giá trị p cho thử nghiệm HL. Và cũng ở lô của phần dư từ mô hình của bạn. Điều này sẽ cho thấy vấn đề là ở đâu.
xác suất

Câu trả lời:


26

Có một số vấn đề cần giải quyết.

  • R2R2R2
  • Thử nghiệm Hosmer-Lemeshow là cho lỗi hiệu chuẩn tổng thể, không phải cho bất kỳ sự thiếu phù hợp cụ thể nào như hiệu ứng bậc hai. Nó không được xem xét quá mức một cách chính xác, tùy ý lựa chọn thùng và phương pháp tính toán lượng tử, và thường có công suất quá thấp.
  • Vì những lý do này, bài kiểm tra Hosmer-Lemeshow không còn được khuyến khích. Hosmer et al có một thử nghiệm phù hợp với một df omnibus tốt hơn, được thực hiện trong chức năng rmsgói R.residuals.lrm
  • Đối với trường hợp của bạn, mức độ phù hợp có thể được đánh giá bằng cách thử nghiệm chung (trong thử nghiệm "chunk") sự đóng góp của tất cả các điều khoản vuông và tương tác.
  • Nhưng tôi khuyên bạn nên chỉ định mô hình để làm cho nó phù hợp hơn về phía trước (đặc biệt là đối với các giả định tuyến tính thư giãn bằng cách sử dụng các hàm hồi quy) và sử dụng bootstrap để ước tính quá mức và để có được đường cong hiệu chỉnh mịn có độ phân giải cao được điều chỉnh quá mức để kiểm tra tuyệt đối độ chính xác. Chúng được thực hiện bằng cách sử dụng rmsgói R.

Về điểm cuối cùng, tôi thích triết lý rằng các mô hình phải linh hoạt (dù bị giới hạn bởi kích thước mẫu) và chúng tôi tập trung nhiều hơn vào "phù hợp" hơn là "thiếu phù hợp".


2
R2

1-R2

4

Từ Wikipedia :

Thử nghiệm đánh giá liệu tỷ lệ sự kiện được quan sát có khớp với tỷ lệ sự kiện dự kiến ​​trong các nhóm con của dân số mô hình hay không. Thử nghiệm Lemmerow Lemmerow xác định cụ thể các nhóm con là phần giải mã của các giá trị rủi ro được trang bị. Các mô hình có tỷ lệ sự kiện được mong đợi và quan sát trong các nhóm con tương tự nhau được gọi là hiệu chuẩn tốt.

Ý nghĩa của nó: sau khi xây dựng mô hình chấm điểm y của mô hình của bạn, bạn muốn kiểm tra chéo xem nó có được phân phối trên 10 decile tương tự như tỷ lệ sự kiện thực tế hay không.

Vì vậy, các giả thuyết sẽ được

  • H0
  • H1

Do đó, nếu giá trị p nhỏ hơn 0,05, chúng không được phân phối tốt và bạn cần tinh chỉnh mô hình của mình.

Tôi hy vọng điều này trả lời một số truy vấn của bạn.


3

Đây là thay vì tranh luận sau @ câu trả lời FrankHarrell, nhưng một fan hâm mộ của các thử nghiệm H-L sẽ suy ra từ kết quả rằng mặc dù hòa nhập của bạn từ ngữ bậc hai và một số tương tác 2-trật tự, mô hình vẫn thấy thiếu đáng kể phù hợp, và rằng có lẽ một mô hình thậm chí phức tạp hơn sẽ thích hợp. Bạn đang kiểm tra sự phù hợp của chính xác mô hình bạn đã chỉ định, không phải của mô hình đơn hàng thứ nhất đơn giản hơn.

Nó không phải là một mô hình bậc 2 đầy đủ, có ba tương tác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.