Hệ số hồi quy logistic lũy thừa khác với tỷ lệ chênh lệch


10

Theo tôi hiểu, giá trị beta lũy thừa từ hồi quy logistic là tỷ lệ chênh lệch của biến đó cho biến quan tâm phụ thuộc. Tuy nhiên, giá trị không khớp với tỷ lệ cược được tính toán thủ công. Mô hình của tôi đang dự đoán còi cọc (một biện pháp suy dinh dưỡng) bằng cách sử dụng, trong số các chỉ số khác, bảo hiểm.

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

Lý do khái niệm cho các giá trị này là khác nhau là gì? Kiểm soát các yếu tố khác trong hồi quy? Chỉ muốn có thể giải thích sự khác biệt.


2
Bạn đang đưa các dự đoán bổ sung vào mô hình hồi quy logistic? Tỷ lệ cược được tính toán thủ công sẽ chỉ khớp với tỷ lệ cược bạn thoát khỏi hồi quy logistic nếu bạn không bao gồm các yếu tố dự đoán khác.
Macro

Đó là những gì tôi đã tìm ra, nhưng muốn xác nhận. Đó là bởi vì kết quả từ hồi quy đang chiếm sự thay đổi trong các yếu tố dự đoán khác?
mike

Vâng, @mike. Giả sử mô hình được chỉ định chính xác, bạn có thể hiểu nó là tỷ lệ chênh lệch khi các yếu tố dự đoán khác đều cố định.
Macro

@Macro: bạn có phiền khi bình luận lại như một câu trả lời không?
jrennie

Câu trả lời:


22

Nếu bạn chỉ đưa công cụ dự đoán đơn độc đó vào mô hình, thì tỷ lệ chênh lệch giữa công cụ dự đoán và phản hồi sẽ chính xác bằng hệ số hồi quy lũy thừa . Tôi không nghĩ rằng xuất phát từ kết quả này hiện tại trên trang web, vì vậy tôi sẽ nhân cơ hội này để cung cấp nó.


YX

Y=1Y=0X=1p11p10X=0p01p00

XiYi

OR=p11p00p01p10

pij=P(Y=i|X=j)P(X=j)XY|X

OR=P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Trong hồi quy logistic, bạn mô hình hóa các xác suất này trực tiếp:

log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi

OR

P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e(β0+β1))(e(β0+β1)1+e(β0+β1))=1e(β0+β1)=e(β0+β1)

và thứ hai là:

P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(eβ01+eβ0)(11+eβ0)=eβ0

OR=e(β0+β1)eβ0=eβ1

Z1,...,Zp

P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)

do đó, tỷ lệ chênh lệch có điều kiện dựa trên các giá trị của các yếu tố dự đoán khác trong mô hình và nói chung, không bằng

P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Vì vậy, không có gì ngạc nhiên khi bạn quan sát thấy sự khác biệt giữa hệ số lũy thừa và tỷ lệ chênh lệch quan sát được.

β


2
Wow, cảm ơn vì đã dành thời gian để viết ra một lời giải thích hoàn chỉnh như vậy.
mike

@Macro Tôi thấy rằng "giá trị p nhỏ hơn 0,05" và "95% CI không bao gồm 1" không nhất quán trong hồi quy logistic (tôi đã sử dụng SAS). Là hiện tượng này liên quan đến lời giải thích của bạn?
dùng67275

4

exp(β)

μtrong mô hình của bạn, nhưng cũng có vấn đề nếu mối quan hệ thực sự khác nhau giữa các cấp độ khác, nhưng không bao gồm thuật ngữ tương tác.) Một khi chúng tôi đã xác định rằng việc tính tỷ lệ chênh lệch bằng cách lũy thừa beta từ một mô hình hồi quy logistic, chúng ta có thể đặt câu hỏi khi nào thì tỷ lệ chênh lệch dựa trên mô hình và tỷ lệ cược sẽ khác nhau, và bạn nên chọn cái nào khi chúng làm?

0/1r0exp(β)

Nếu OR biên và OR dựa trên mô hình khác nhau, bạn nên sử dụng / giải thích phiên bản dựa trên mô hình. Lý do là OR biên không giải thích cho sự nhầm lẫn giữa các đồng biến của bạn, trong khi mô hình thì có. Hiện tượng này có liên quan đến Nghịch lý của Simpson , mà bạn có thể muốn đọc (SEP cũng có một mục hay , có một cuộc thảo luận về CV ở đây: Nghịch lý cơ bản của simpson và bạn có thể tìm kiếm trên thẻ của CV ). Vì mục đích đơn giản và thực tế, bạn có thể chỉ muốn sử dụng mô hình dựa trên OR, vì nó sẽ được ưu tiên rõ ràng hoặc giống nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.