Phân phối xiên cho hồi quy logistic


8

Tôi đã phát triển mô hình hồi quy logistic dựa trên dữ liệu hồi cứu từ cơ sở dữ liệu chấn thương quốc gia về chấn thương đầu ở Anh. Kết quả chính là tử vong 30 ngày (ký hiệu là Outcome30thước đo). Các biện pháp khác trên toàn bộ cơ sở dữ liệu với bằng chứng được công bố về ảnh hưởng đáng kể đến kết quả trong các nghiên cứu trước đó bao gồm:

Yeardecimal - Date of procedure = 1994.0-2013.99
inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a separate diagnosis)
ISS - Injury Severity Score = 1-75
Age - Age of patient = 16.0-101.5
GCS - Glasgow Coma Scale = 3-15
Sex - Gender of patient = Male or Female
rcteyemi - Pupil reactivity (1 = neither, 2 = one, 3 = both)
neuroFirst2 - Location of admission (Neurosurgical unit or not)
Other - other traums (0 - No, 1 - Yes)
othopYN - Other operation required
LOS - Length of stay in days
LOSCC - Length of stay in critical care in days 

Khi tôi tiến hành phân tích đơn biến các biến, tôi đã tiến hành hồi quy logistic cho từng biến liên tục. Tuy nhiên, tôi không thể lập mô hình Yeardecimal, với kết quả như sau:

> rcs.ASDH<-lrm(formula = Survive ~ Yeardecimal, data = ASDH_Paper1.1)
singular information matrix in lrm.fit (rank= 1 ).  Offending variable(s):
Yeardecimal 
Error in lrm(formula = Survive ~ Yeardecimal, data = ASDH_Paper1.1) : 
  Unable to fit model using lrm.fit

Tuy nhiên, spline khối bị hạn chế hoạt động:

> rcs.ASDH<-lrm(formula = Survive ~ rcs(Yeardecimal), data = ASDH_Paper1.1)
> 
> rcs.ASDH

Logistic Regression Model

lrm(formula = Survive ~ rcs(Yeardecimal), data = ASDH_Paper1.1)

                      Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
Obs          5998    LR chi2     106.61    R2       0.027    C       0.578    
 0           1281    d.f.             4    g        0.319    Dxy     0.155    
 1           4717    Pr(> chi2) <0.0001    gr       1.376    gamma   0.160    
max |deriv| 2e-08                          gp       0.057    tau-a   0.052    
                                           Brier    0.165                     

               Coef     S.E.    Wald Z Pr(>|Z|)
Intercept      -68.3035 45.8473 -1.49  0.1363  
Yeardecimal      0.0345  0.0229  1.51  0.1321  
Yeardecimal'     0.1071  0.0482  2.22  0.0262  
Yeardecimal''   -2.0008  0.6340 -3.16  0.0016  
Yeardecimal'''  11.3582  4.0002  2.84  0.0045  

Bất cứ ai có thể giải thích tại sao điều này là? Tôi lo lắng về việc sử dụng một mô hình phức tạp chế độ nếu tôi không thể mô hình hóa với một cách tiếp cận đơn giản hơn.

Tôi hiện đang sử dụng các khối vuông bị hạn chế để mô hình Age, ISS và Yeardecimal. Bất cứ ai sẽ đề nghị bất kỳ phương pháp thay thế?


4
Không yêu cầu , nhưng có thể hợp lý để chuyển đổi một số dự đoán sai lệch hơn trước khi tạo cơ sở spline, để tránh có một số điểm dữ liệu với đòn bẩy rất cao.
Scortchi - Phục hồi Monica

Để xem câu trả lời của @ StasK có đúng không, hãy xem xét thử điều này với glmchức năng vanilla , theo r.789695.n4.nabble.com/ Kẻ
Shadowtalker

Câu trả lời:


7

Ngày như một công cụ dự đoán có thể không thành công vì nó rất cao với hằng số. Nếu bạn nhập nó sau một năm, thì độ biến thiên của nó là khoảng 10/2000 = 0,005 (thực tế là ít hơn vì hầu hết dữ liệu của bạn là trong những năm gần đây) và khi bình phương nó trở thành 4e-6. Khi đảo ngược một ma trận có giá trị riêng 1 và 4e-6, gói mà bạn sử dụng có thể quyết định nó là số 0 trong các số liệu chính xác hữu hạn và ném thông báo lỗi này. Giải pháp rất đơn giản - tập trung vào dữ liệu của bạn, ít nhất là xấp xỉ bằng cách trừ 2000 từ năm.


1
Điều này đã giải quyết vấn đề, cảm ơn bạn đã giải thích.
Đài phun nước Dan

Tôi không thấy điều đó. Đó là một phạm vi ngày khá đẹp.
Frank Harrell

5

Các splines khối bị hạn chế sẽ được dự kiến ​​sẽ hoạt động tốt ở đây. Bạn đang lo lắng hơi quá nhiều về phân phối biên của các yếu tố dự đoán.

Thời gian lưu trú là phần sai của con đường nhân quả để sử dụng nó như một yếu tố dự báo về cái chết. Và xem ra cho hoạt động khác cần thiết.

Tôi không thấy nhiều giá trị trong các phân tích không thể thay đổi.


Cảm ơn bạn. Tôi đồng ý nhưng theo truyền thống, kết quả đơn biến được yêu cầu trong tài liệu. Bất kỳ suy nghĩ tại sao hồi quy logistic đang chạy một lỗi cho Yeardecimal khi một thuật ngữ tuyến tính?
Đài phun nước Dan

5
Frank Harrell văn học .
StasK

2
Xin lỗi, tôi đã đề cập đến các nghiên cứu về kết quả trong khối máu tụ dưới màng cứng.
Đài phun nước Dan
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.