Điều tra sự mạnh mẽ của hồi quy logistic chống lại sự vi phạm tính tuyến tính của logit


10

Tôi đang tiến hành hồi quy logistic với kết quả nhị phân (bắt đầu và không bắt đầu). Kết hợp các yếu tố dự đoán của tôi là tất cả các biến liên tục hoặc nhị phân.

Sử dụng phương pháp Box-Tidwell, một trong những dự đoán liên tục của tôi có khả năng vi phạm giả định về tính tuyến tính của logit. Không có dấu hiệu nào từ số liệu thống kê mức độ phù hợp phù hợp là vấn đề.

Sau đó, tôi đã chạy lại mô hình hồi quy, thay thế biến liên tục ban đầu bằng: thứ nhất, một phép biến đổi căn bậc hai và thứ hai, một phiên bản nhị phân của biến.

Khi kiểm tra đầu ra, có vẻ như mức độ phù hợp sẽ cải thiện đáng kể nhưng dư lượng trở nên có vấn đề. Ước tính tham số, lỗi tiêu chuẩn và vẫn tương đối giống nhau. Việc giải thích dữ liệu không thay đổi theo giả thuyết của tôi, trên cả 3 mô hình.exp(β)

Do đó, về tính hữu ích của kết quả và ý thức giải thích dữ liệu của tôi, có vẻ phù hợp để báo cáo mô hình hồi quy bằng cách sử dụng biến liên tục ban đầu.

Tôi đang tự hỏi điều này:

  1. Khi nào hồi quy logistic mạnh mẽ chống lại sự vi phạm tiềm năng của tuyến tính của giả định logit?
  2. Cho ví dụ trên của tôi, có vẻ chấp nhận được việc bao gồm biến liên tục ban đầu trong mô hình không?
  3. Có bất kỳ tài liệu tham khảo hoặc hướng dẫn nào ngoài đó để đề xuất khi thỏa đáng để chấp nhận rằng mô hình đó mạnh mẽ chống lại sự vi phạm tiềm năng của tuyến tính của logit không?

Câu trả lời:


16

Giả định tuyến tính thường bị vi phạm trong hồi quy đến mức nó phải được gọi là bất ngờ chứ không phải là giả định. Giống như các mô hình hồi quy khác, mô hình logistic không mạnh mẽ đối với phi tuyến khi bạn giả định tuyến tính. Thay vì phát hiện tính phi tuyến bằng cách sử dụng phần dư hoặc độ tốt omnibus của các bài kiểm tra phù hợp, tốt hơn là sử dụng các bài kiểm tra trực tiếp. Ví dụ, mở rộng các bộ dự đoán liên tục bằng cách sử dụng các hàm hồi quy và thực hiện kiểm tra tổng hợp tất cả các số hạng phi tuyến. Tốt hơn vẫn không kiểm tra các điều khoản và chỉ mong đợi phi tuyến. Cách tiếp cận này tốt hơn nhiều so với việc thử các lựa chọn biến đổi độ dốc đơn khác nhau như căn bậc hai, log, v.v., bởi vì suy luận thống kê phát sinh sau các phân tích như vậy sẽ không chính xác vì nó không có mức độ tự do của tử số đủ lớn.

Đây là một ví dụ trong R.

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests

Câu trả lời của bạn có ý nghĩa tuyệt vời - cảm ơn bạn! Bạn có thể đề xuất cú pháp được sử dụng trong SPSS không? Rất tiếc, tôi không có quyền truy cập (hoặc kỹ năng) để sử dụng R.
Short Elizabeth

1
Nó chắc chắn là giá trị thời gian để học R, và tôi có rất nhiều tài liệu liên quan đến mô hình logistic và gói rms. Điều này sẽ khó thực hiện trong SPSS.
Frank Harrell

@FrankHarrell: f <- lrm(y ~ ...dòng bị lỗi object 'y' not found- bạn có thể sửa không?
arielf

1
Đó là một lỗi R rất cơ bản không chỉ có trong rmsgói của tôi . Dành thời gian để làm quen với R, bắt đầu với nhiều tài liệu có sẵn cho lmchức năng hồi quy cơ bản .
Frank Harrell

1
Các ví dụ tích hợp trong các trang trợ giúp của phần mềm mô phỏng dữ liệu đó, vì vậy hãy xem toàn bộ ví dụ trong ngữ cảnh. Làm require(rms)sau ?lrmđóexamples(lrm)
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.