Làm thế nào để bạn dự đoán một loại phản ứng được đưa ra một mô hình hồi quy logistic thứ tự?


13

Tôi muốn dự đoán một vấn đề sức khỏe. Tôi có 3 loại kết quả được yêu cầu: 'bình thường', 'nhẹ' và 'nghiêm trọng'. Tôi muốn dự đoán điều này từ hai biến dự đoán, kết quả kiểm tra (hiệp phương sai liên tục) và lịch sử gia đình với vấn đề này (có hoặc không). Trong mẫu của tôi, xác suất là 55% (bình thường), 35% (nhẹ) và 10% (nghiêm trọng). Theo nghĩa này, tôi luôn có thể dự đoán 'bình thường' và đúng 55% thời gian, mặc dù điều này sẽ không cung cấp cho tôi thông tin về từng bệnh nhân. Tôi phù hợp với mô hình sau:

điểm cắt cho (y1)^= =-2,18điểm cắt cho (y2)^= =-4,27β^teSt= =0,60β^fmộtmTôitôiy hTôiStory= =1,05

Giả sử không có tương tác và mọi thứ đều ổn với mô hình. Độ phù hợp, c, là 60,5%, mà tôi hiểu là độ chính xác dự đoán tối đa mà mô hình mang lại.

Tôi bắt gặp hai bệnh nhân mới với dữ liệu sau: 1. test = 3.26, Family = 0; 2. test = 2.85, gia đình = 1. Tôi muốn dự đoán tiên lượng của họ. Sử dụng công thức: (và sau đó lấy sự khác biệt giữa xác suất tích lũy), tôi có thể tính toán phân phối xác suất theo các loại phản ứng có điều kiện trên mô hình. Mã R (nb, do các vấn đề làm tròn, đầu ra không khớp hoàn hảo):

điểm kinh nghiệm(-Xβ-cbạntPoTôint)(1+điểm kinh nghiệm(-Xβ-cbạntPoTôint))
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

Cụ thể: 1. 0 = 55,1%, 1 = 35,8%, 2 = 9,1%; và 2. 0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Câu hỏi của tôi là, làm thế nào để tôi đi từ phân phối xác suất đến một loại phản ứng dự đoán?

Tôi đã thử một số khả năng bằng cách sử dụng dữ liệu mẫu, trong đó kết quả được biết đến. Nếu tôi chỉ chọn tối đa (xác suất), độ chính xác là 57%, cải thiện một chút so với null, nhưng dưới mức phù hợp. Hơn nữa, trong mẫu, cách tiếp cận này không bao giờ chọn 'nghiêm trọng', đó là điều tôi thực sự muốn biết. Tôi đã thử một cách tiếp cận Bayes bằng cách chuyển đổi xác suất null và mô hình thành tỷ lệ cược và sau đó chọn tỷ lệ tối đa (tỷ lệ cược). Điều này đôi khi chọn 'nghiêm trọng', nhưng mang lại độ chính xác kém hơn 49,5%. Tôi cũng đã thử một tổng số các hạng mục có trọng số bởi xác suất và làm tròn số. Điều này, một lần nữa, không bao giờ chọn 'nghiêm trọng', và có độ chính xác thấp 51,5%.

Phương trình lấy thông tin ở trên và mang lại độ chính xác tối ưu (60,5%) là gì?

Câu trả lời:


11

Bạn đang thực hiện một bước nhảy vọt mà bạn cần phân loại các giá trị dự đoán. Việc phương pháp của bạn không bao giờ chọn loại "nghiêm trọng" là hậu quả của tính chất rời rạc của vấn đề và "nghiêm trọng" là không thường xuyên. Với các mô hình phản ứng thứ tự, bạn chỉ có thể tự mình sử dụng xác suất vượt quá (cho tất cả trừ một danh mục) hoặc chỉ trích dẫn các xác suất riêng lẻ. Nếu có khoảng cách xấp xỉ, bạn cũng có thể sử dụng giá trị trung bình dự đoán. Đây là tất cả có sẵn trong gói R và chức năng liên quan . Nhiều người cho rằng phân loại là mục tiêu trong khi thực tế dự đoán rủi ro là mục tiêu cơ bản.Yrmslrmpredict.lrm


1
Cảm ơn bạn đã giúp đỡ. Tôi nghi ngờ mức độ nghiêm trọng thấp là một phần của vấn đề. Tôi nghĩ rằng Y thô của tôi, 0 1 2, không đủ khoảng cách bằng nhau. Tôi thu thập mục tiêu của tôi là sai lầm. Thật không may, tôi nghĩ rằng tôi muốn biết những gì loại một bệnh nhân mới sẽ rơi vào / không hoàn toàn hiểu những gì mục tiêu của tôi nên được. Có thể cung cấp một cái nhìn sâu sắc hơn một chút? (Trên thực tế, tôi nghi ngờ CV không phải là diễn đàn cho một bài học hoàn chỉnh; cách khác, bạn có biết nơi tôi có thể tìm hiểu về vấn đề này tôi có đọc các phần từ Giới thiệu & Hosmer & Lemeshow của Logistic Agresti, nhưng không có kết quả?.)
gung - Phục hồi Monica

1
Mục tiêu được thúc đẩy bởi quyết định cần thiết hoặc bởi đối tượng. Nếu bạn nêu mục tiêu cuối cùng tôi có thể bình luận.
Frank Harrell

Xin lỗi về sự thiếu rõ ràng của tôi, nó dường như cũng là một vấn đề ở trên. Hiện tại, tôi muốn có thể dự đoán kết quả cho các trường hợp mới. Về lâu dài, tôi muốn hiểu rõ hơn về reg log reg, ví dụ như làm thế nào để bạn có được số dư nếu bạn không có các danh mục dự đoán? Tôi thu thập độ chính xác tốt hơn một chút là có thể, nhưng tôi không biết làm thế nào để có được nó. Tôi chắc chắn rằng bạn không có thời gian để giải thích mọi thứ, nhưng cả Agresti và H & L đều không nói gì về dự đoán hoặc số dư, v.v. và tôi không thể tìm thấy bất cứ điều gì với google. Vì vậy, tôi đã hỏi trên CV. Tôi đánh giá cao sự tiếp tục hỗ trợ của bạn.
gung - Phục hồi Monica

Yjj

-1

Độ tin cậy được xác định bằng cách kiểm tra điểm trung bình, không phải điểm tối đa.

Vì vậy, đối với ví dụ của bạn, điểm trung bình của 1 là 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54 và 2 là (thông qua các phép tính tương tự) 0,826.

Đó là giá trị này mà bạn nên so sánh để có được sự phù hợp hoặc bất kỳ số liệu thống kê liên kết nào khác.

Tham chiếu - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htmlm#statug_logistic_sect042.htm


3
YXβDxy

2
SAS PROC LOGISTY
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.