Tôi muốn dự đoán một vấn đề sức khỏe. Tôi có 3 loại kết quả được yêu cầu: 'bình thường', 'nhẹ' và 'nghiêm trọng'. Tôi muốn dự đoán điều này từ hai biến dự đoán, kết quả kiểm tra (hiệp phương sai liên tục) và lịch sử gia đình với vấn đề này (có hoặc không). Trong mẫu của tôi, xác suất là 55% (bình thường), 35% (nhẹ) và 10% (nghiêm trọng). Theo nghĩa này, tôi luôn có thể dự đoán 'bình thường' và đúng 55% thời gian, mặc dù điều này sẽ không cung cấp cho tôi thông tin về từng bệnh nhân. Tôi phù hợp với mô hình sau:
Giả sử không có tương tác và mọi thứ đều ổn với mô hình. Độ phù hợp, c, là 60,5%, mà tôi hiểu là độ chính xác dự đoán tối đa mà mô hình mang lại.
Tôi bắt gặp hai bệnh nhân mới với dữ liệu sau: 1. test = 3.26, Family = 0; 2. test = 2.85, gia đình = 1. Tôi muốn dự đoán tiên lượng của họ. Sử dụng công thức: (và sau đó lấy sự khác biệt giữa xác suất tích lũy), tôi có thể tính toán phân phối xác suất theo các loại phản ứng có điều kiện trên mô hình. Mã R (nb, do các vấn đề làm tròn, đầu ra không khớp hoàn hảo):
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
Cụ thể: 1. 0 = 55,1%, 1 = 35,8%, 2 = 9,1%; và 2. 0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Câu hỏi của tôi là, làm thế nào để tôi đi từ phân phối xác suất đến một loại phản ứng dự đoán?
Tôi đã thử một số khả năng bằng cách sử dụng dữ liệu mẫu, trong đó kết quả được biết đến. Nếu tôi chỉ chọn tối đa (xác suất), độ chính xác là 57%, cải thiện một chút so với null, nhưng dưới mức phù hợp. Hơn nữa, trong mẫu, cách tiếp cận này không bao giờ chọn 'nghiêm trọng', đó là điều tôi thực sự muốn biết. Tôi đã thử một cách tiếp cận Bayes bằng cách chuyển đổi xác suất null và mô hình thành tỷ lệ cược và sau đó chọn tỷ lệ tối đa (tỷ lệ cược). Điều này đôi khi chọn 'nghiêm trọng', nhưng mang lại độ chính xác kém hơn 49,5%. Tôi cũng đã thử một tổng số các hạng mục có trọng số bởi xác suất và làm tròn số. Điều này, một lần nữa, không bao giờ chọn 'nghiêm trọng', và có độ chính xác thấp 51,5%.
Phương trình lấy thông tin ở trên và mang lại độ chính xác tối ưu (60,5%) là gì?