Làm thế nào tôi nên kiểm tra giả định tuyến tính với logit cho các biến độc lập liên tục trong phân tích hồi quy logistic?


13

Tôi bối rối với giả định về tuyến tính đối với logit cho các biến dự đoán liên tục trong phân tích hồi quy logistic. Chúng ta có cần kiểm tra mối quan hệ tuyến tính trong khi sàng lọc các yếu tố dự đoán tiềm năng bằng cách sử dụng phân tích hồi quy logistic không đáng tin cậy không?

Trong trường hợp của tôi, tôi đang sử dụng phân tích hồi quy logistic nhiều để xác định các yếu tố liên quan đến tình trạng dinh dưỡng (kết quả phân đôi) giữa những người tham gia. Các biến liên tục bao gồm tuổi, điểm số hấp thụ Charlson, điểm Barthel Index, độ bám tay, điểm GDS, BMI, ... Bước đầu tiên của tôi là sàng lọc các biến quan trọng bằng phương pháp hồi quy logistic đơn giản. Tôi có cần kiểm tra giả định tuyến tính trong các phân tích hồi quy logistic đơn giản cho từng biến liên tục không? Hoặc tôi chỉ nên kiểm tra nó trong mô hình hồi quy logistic nhiều cuối cùng?

Ngoài ra, theo hiểu biết của tôi, chúng ta cần chuyển đổi biến liên tục phi tuyến tính trước khi nhập nó vào mô hình. Tôi có thể phân loại biến liên tục phi tuyến thay vì biến đổi không?


1
Bạn không nên phân loại, tốt hơn để thử splines!
kjetil b halvorsen

Câu trả lời:


11

Như tôi mô tả chi tiết trong cuốn sách Chiến lược mô hình hồi quy của tôi (phiên bản 2 có sẵn 2015-09-04, sách điện tử hiện có), quá trình cố gắng biến đổi các biến trước khi mô hình hóa là vấn đề, một trong những điều quan trọng nhất là biến dạng lỗi loại I và khoảng tin cậy. Phân loại gây ra các vấn đề thậm chí nghiêm trọng hơn, đặc biệt là thiếu sự phù hợp và tùy tiện.

Thay vì nghĩ về vấn đề này như là một vấn đề "kiểm tra sự thiếu phù hợp", tốt hơn là nghĩ về nó như chỉ định một mô hình rất có khả năng phù hợp. Một cách để làm điều này là phân bổ các tham số cho các phần của mô hình có khả năng mạnh và mà tuyến tính chưa được biết là một giả định hợp lý. Trong quy trình này, người ta kiểm tra kích thước mẫu hiệu quả (trong trường hợp của bạn là tối thiểu số lượng sự kiện và số lượng sự kiện) và cho phép mức độ phức tạp đến mức mà nội dung thông tin của dữ liệu cho phép (sử dụng quy tắc tham số 15: 1: của ngón tay cái). Bằng cách chỉ định trước một mô hình tham số phụ gia linh hoạt, người ta sẽ chỉ sai khi nó quan trọng bằng cách bỏ qua các tương tác quan trọng. Tương tác nên được chỉ định trước, nói chung.

Bạn có thể kiểm tra xem có cần tính phi tuyến trong mô hình hay không bằng thử nghiệm chính thức (dễ dàng với rmsgói R ) nhưng loại bỏ các thuật ngữ đó khi không đáng kể sẽ tạo ra các biến dạng suy diễn mà tôi đã nêu ở trên.

Thông tin chi tiết có thể được tìm thấy tại các ghi chú khóa học được liên kết đến từ http://biostat.mc.vanderbilt.edu/rms .


Xin lỗi vì đã không đề cập đến nó sớm hơn nhưng tôi không quen với R và đã sử dụng SPSS cho các phân tích. Từ giải pháp được cung cấp, có nghĩa là nếu tôi sử dụng cỡ mẫu hiệu quả (15: 1), tôi có thể bao gồm tất cả các yếu tố quan trọng (từ đánh giá) mà không cần kiểm tra tính tuyến tính của chúng?
Sze Lin Tan

Từ các phân tích hồi quy logistic không đáng tin cậy mà tôi đã thực hiện trong trường hợp của mình, BMI, chu vi bắp chân, chu vi cánh tay giữa đều góp phần đáng kể vào mô hình hồi quy logistic đơn giản về tình trạng dinh dưỡng (p <0,05). Nhưng họ đã không đáp ứng giả định tuyến tính khi tôi kiểm tra giả định sử dụng phương pháp Box-Tidwell (cho mỗi mô hình logistic đơn giản). Vì vậy, tôi không chắc chắn tôi có nên tiến hành phân tích hồi quy logistic nhiều với các dự đoán này hay không.
Sze Lin Tan

5
Việc xây dựng các mô hình trên cơ sở phân tích không thể thay đổi là không hợp lệ. Bạn đang sử dụng một biến thể để chuyển tiếp hồi quy từng bước được biết là gây ra một loạt vấn đề.
Frank Harrell

8

Hồi quy logistic KHÔNG giả định mối quan hệ tuyến tính giữa các biến phụ thuộc và độc lập. Nó giả định mối quan hệ tuyến tính giữa tỷ lệ cược log của biến phụ thuộc và biến độc lập (Đây chủ yếu là vấn đề với các biến độc lập liên tục.) Có một thử nghiệm gọi là Box-Tidwell mà bạn có thể sử dụng cho điều này. Lệnh stata là boxtid. Tôi không biết lệnh SPSS, xin lỗi.

Điều này có thể hữu ích - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/ch CHƯƠNG3 / statalog3.htm


Liên kết bị hỏng ngay bây giờ.
Alexey Shrub

1

Tôi nghĩ rằng chúng ta nên vẽ các biến liên tục và kiểm tra độ tuyến tính trước khi sử dụng chúng trong mô hình hồi quy. Nếu tuyến tính có vẻ như là một giả định hợp lý, tôi nghĩ rằng điều này có thể vẫn sẽ giữ trong mô hình hồi quy đa biến cuối cùng trong hầu hết các trường hợp, và nếu không, tôi nghĩ điều này chủ yếu có thể được gây ra bởi các hiệu ứng tương tác mà bạn có thể sửa.

Có, phân loại các biến liên tục phi tuyến tính là một lựa chọn. Vấn đề với điều này là các danh mục trong hầu hết các trường hợp có vẻ tùy tiện và sự khác biệt nhỏ về điểm số giữa các danh mục có thể dẫn đến các kết quả khác nhau (đặc biệt là về ý nghĩa thống kê), và tùy thuộc vào số lượng danh mục và kích thước dữ liệu của bạn , bạn có thể mất nhiều thông tin có giá trị trong dữ liệu.

Một cách tiếp cận khác là sử dụng mô hình phụ gia tổng quát là mô hình hồi quy có thể được chỉ định là hồi quy logistic, nhưng trong đó bạn có thể bao gồm các biến độc lập phi tuyến tính là "các hàm mượt mà". Về mặt kỹ thuật, điều này không quá phức tạp trong R, nhưng tôi không biết về các gói phần mềm khác. Các mô hình này sẽ xác định mối quan hệ phi tuyến tính với các biến phụ thuộc, nhưng một nhược điểm có thể là bạn sẽ không nhận được các số gọn gàng và gọn gàng trong đầu ra của mình, mà là một đường cong trực quan được kiểm tra về ý nghĩa thống kê. Vì vậy, nó phụ thuộc vào mức độ quan tâm của bạn trong việc định lượng ảnh hưởng của biến phi tuyến tính đến biến kết quả.

Cuối cùng, bạn có thể sử dụng các mô hình phụ gia tổng quát như được mô tả ở trên để kiểm tra các giả định về tuyến tính trong mô hình hồi quy logistic của bạn, ít nhất là nếu bạn sử dụng R.

Hãy xem cuốn sách này (một lĩnh vực rất khác với của bạn và của tôi, nhưng điều đó hoàn toàn không thành vấn đề): http://www.amazon.com/Effects-Extensions-Ecology-Statistic-Biology/dp/0387874577 / ref = sr_1_1? tức là = UTF8 & qid = 1440928328 & sr = 8-1 & Keywords = zuur + sinh thái


Tôi không quen thuộc với R và đã sử dụng SPSS cho các phân tích. Xin lỗi vì đã không đề cập đến nó sớm hơn. Tôi có thể sử dụng phương pháp Box-Tidwell (bằng cách tạo một thuật ngữ tương tác giữa biến liên tục và nhật ký tự nhiên của chính nó và thêm thuật ngữ tương tác vào mô hình) để kiểm tra giả định tuyến tính không?
Sze Lin Tan

1

Vì tôi không biết dữ liệu của bạn nên tôi không biết nếu kết hợp ba biến đó - biến cơ bản, nhật ký tự nhiên và thuật ngữ tương tác - sẽ là một vấn đề. Tuy nhiên, tôi biết rằng trong quá khứ khi tôi đã cân nhắc kết hợp ba thuật ngữ, tôi thường mất dấu vết theo khái niệm về những gì tôi đang đo. Bạn cần có cách xử lý tốt những gì bạn đang đo hoặc bạn sẽ gặp khó khăn khi giải thích những phát hiện của mình. Mong rằng sẽ giúp!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.