Phân tích ROC và multiROC: làm thế nào để tính điểm cắt tối ưu?


14

Tôi đang cố gắng hiểu cách tính điểm cắt tối ưu cho đường cong ROC (giá trị mà tại đó độ nhạy và độ đặc hiệu được tối đa hóa). Tôi đang sử dụng bộ dữ liệu aSAHtừ gói pROC.

Các outcomebiến thể được giải thích bởi hai biến độc lập: s100bndka. Sử dụng cú pháp của Epigói, tôi đã tạo hai mô hình:

library(pROC)
library(Epi)
ROC(form=outcome~s100b, data=aSAH)
ROC(form=outcome~ndka, data=aSAH)

Đầu ra được minh họa trong hai biểu đồ sau:

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Trong biểu đồ đầu tiên ( s100b), hàm nói rằng điểm cắt tối ưu được định vị tại giá trị tương ứng lr.eta=0.304. Trong biểu đồ thứ hai ( ndka) điểm cắt tối ưu được bản địa hóa tại giá trị tương ứng với lr.eta=0.335(ý nghĩa củalr.eta ) là gì. Câu hỏi đầu tiên của tôi là:

  • giá trị tương ứng s100bndkagiá trị của các lr.etagiá trị được chỉ định là gì (điểm cắt tối ưu về mặt s100bndka) là gì?

CÂU HỎI THỨ HAI:

Bây giờ giả sử tôi tạo một mô hình có tính đến cả hai biến:

ROC(form=outcome~ndka+s100b, data=aSAH)

Biểu đồ thu được là:

nhập mô tả hình ảnh ở đây

Tôi muốn biết các giá trị của ndkaAND s100btại đó độ nhạy và độ đặc hiệu được tối đa hóa bởi hàm. Nói cách khác: các giá trị của ndkas100b tại đó chúng ta có Se = 68,3% và Sp = 76,4% (các giá trị xuất phát từ biểu đồ) là gì?

Tôi cho rằng câu hỏi thứ hai này có liên quan đến phân tích multiROC, nhưng tài liệu của Epigói không giải thích cách tính điểm cắt tối ưu cho cả hai biến được sử dụng trong mô hình.

Câu hỏi của tôi xuất hiện rất giống với câu hỏi này từ reasearchGate , nói ngắn gọn:

Việc xác định điểm số thể hiện sự đánh đổi tốt hơn giữa độ nhạy và độ đặc hiệu của một biện pháp là đơn giản. Tuy nhiên, đối với phân tích đường cong ROC đa biến, tôi đã lưu ý rằng hầu hết các nhà nghiên cứu đã tập trung vào các thuật toán để xác định độ chính xác tổng thể của sự kết hợp tuyến tính của một số chỉ số (biến) theo AUC. [...]

Tuy nhiên, các phương pháp này không đề cập đến cách quyết định kết hợp điểm số bị cắt liên quan đến nhiều chỉ số mang lại độ chính xác chẩn đoán tốt nhất.

Một giải pháp khả thi là đề xuất của Shultz trong bài báo của mình , nhưng từ bài viết này tôi không thể hiểu làm thế nào để tính toán điểm cắt tối ưu cho đường cong ROC đa biến.

Có thể giải pháp từ Epigói không lý tưởng, vì vậy bất kỳ liên kết hữu ích nào khác sẽ được đánh giá cao.

Câu trả lời:


9

Để giải thích câu trả lời của Frank Harrell, những gì Epigói đã làm là phù hợp với hồi quy logistic và tạo đường cong ROC với dự đoán kết quả của dạng sau:

outcome=11+e(β0+β1s100b+β2ndka)

β0β1β2

0.312=11+e(2.379+5.334s100b+0.031ndka)
1.588214=5.334s100b+0.031ndka
s100b=1.5882140.031ndka5.334

Bất kỳ cặp giá trị (s100b, ndka) nào thỏa mãn đẳng thức này là "tối ưu". Thật không may cho bạn, có vô số những cặp này. Chẳng hạn, (0,29, 1), (0, 51.2), v.v. Thậm chí tệ hơn, hầu hết chúng không có ý nghĩa gì. Cặp (-580, 10000) có nghĩa là gì? Không có gì!

Nói cách khác, bạn không thể thiết lập các điểm dừng trên đầu vào - bạn phải thực hiện nó trên đầu ra và đó là toàn bộ quan điểm của mô hình.


8

Không phù hợp để tìm kiếm các điểm cắt trên các biến đầu vào, mà thay vào đó chỉ dựa trên đầu ra (ví dụ: rủi ro dự đoán từ một mô hình đa biến). Đó là bởi vì mức cắt cho x1 sẽ phụ thuộc vào giá trị liên tục của x2. Và tìm kiếm một điểm dừng trênY^


Tôi hiểu vấn đề bạn giải thích. Nhân tiện, tôi đang tự hỏi, nếu có một phương pháp tính song song các điểm cắt cho hai (hoặc nhiều) xét nghiệm, để tăng Sens và Spec xác định một tình trạng cụ thể (bệnh / kết quả / v.v. ). Cảm ơn trước.
Tommaso

1
Vì điểm cắt "tối ưu" cho x1 sẽ phụ thuộc vào giá trị liên tục của x2 và điểm cắt "tối ưu" cho x2 sẽ phụ thuộc vào giá trị liên tục của x1, không có cách nào để làm điều này và bảo toàn đủ thông tin để làm cho nó không phải là một thảm họa.
Frank Harrell

Vì vậy, không có cách nào để tìm ra điểm giới hạn cho hai hoặc nhiều bài kiểm tra, để tối đa hóa Độ nhạy và Độ đặc hiệu? Tất nhiên một phương pháp không phải là phân tích multiROC. Cảm ơn một lần nữa.
Tommaso

2
Nó chỉ đơn giản là không thích hợp để tìm kiếm cắt giảm đầu vào. Các quyết định tối ưu được thực hiện bằng cách không sử dụng bất kỳ mức cắt nào, hoặc, nếu cần trước thời gian quyết định, bằng cách thực hiện cắt giảm các xác suất dự đoán. Các tiện ích (mất / chi phí) là cần thiết để giải quyết cho việc cắt giảm tối ưu rủi ro dự đoán.
Frank Harrell

1
Các đường cong ROC không có gì để làm với việc đáp ứng mục tiêu đó. Để làm điều đó, bạn cần liên hệ SCr với kết quả hoặc chỉ tính toán xác suất để có được một SCr cực đoan hơn so với dân số bình thường.
Frank Harrell

3

Tôi đoán lr.etalà công cụ dự đoán tuyến tính là logitit từ mô hình được trang bị, nhưη là một biểu tượng thường được sử dụng cho nó; hoặc, nếu không, xác suất từ ​​mô hình được trang bị. (Hóa ra đó là cái sau: xem /programming//a/38532555/1864816 .) Bạn có thể kiểm tra mã trong ROC. Trong mọi trường hợp, bạn sẽ có thể tính toán nó từ các hệ số mô hình cho bất kỳ số lượng dự đoán nào. (Lưu ý rằng nó sẽ không bị cắt riêng cho từng yếu tố dự đoán, nhưng là chức năng của tất cả các yếu tố dự đoán.)

Câu đầu tiên của bạn sẽ nói (bằng chứng là các biểu đồ) rằng bạn đang tìm kiếm tổng độ nhạy và độ đặc hiệu được tối đa hóa. Nhưng tại sao điều này là "tối ưu"? Có kết quả dương tính giả có cùng nhập khẩu với kết quả âm tính giả không? Xem tại đây .


Điều đó là chính xác, tôi có thể tính điểm cắt từ mô hình được trang bị (cho một biến độc lập) hoặc sử dụng coordshàm từ pROCgói, như tôi đã tìm thấy sau này. Điểm cắt tối ưu là, trong trường hợp của tôi, sự kết hợp tốt nhất giữa Sens và Spec; Tôi đã đọc câu trả lời được liên kết, nhưng tôi không quan tâm (ít nhất là bây giờ) về kết quả âm tính giả và âm tính giả, bởi vì (nếu tôi hiểu rõ) tôi đang phân tích một nhóm dữ liệu được thu thập để nghiên cứu.
Tommaso

Có gì làm bạn quan tâm sau đó? Bạn đang làm gì với việc cắt giảm mà không yêu cầu xem xét hậu quả? Và sau đó, 'tối ưu' hay 'tốt nhất' để làm gì?
Scortchi - Tái lập Monica

Tommaso định nghĩa "tối ưu" là "giá trị mà độ nhạy và độ đặc hiệu được tối đa hóa" (trích câu đầu tiên của câu hỏi), ngầm hiểu nghĩa là max (độ nhạy + độ đặc hiệu). Cho dù nó có ý nghĩa hay không (và khi tôi đọc anh ấy không quan tâm, tôi có xu hướng nghĩ rằng nó không) là một câu hỏi khác.
Calimo

1
Cách tiếp cận này là mâu thuẫn với việc ra quyết định.
Frank Harrell

1
Tôi nghĩ rằng nếu tôi đang đọc bài viết của bạn một cách chính xác, chính xáclr.eta tùy chọn thứ hai mà bạn đề cập đến: xác suất từ mô hình được trang bị:E[YTôi|XTôi]= =11+e-(β0+β1×S100b). Kiểm tra này nếu bạn có một phút.
Antoni Parellada

0

Bạn có thể tìm thấy ngưỡng mà tỷ lệ dương thực sự (tpr) giao với tỷ lệ âm thực (tnr), đây sẽ là điểm tại đó tổng của các dương tính giả và âm tính giả là tối thiểu.


Câu trả lời một câu thường được coi là một chút ngắn cho định dạng của chúng tôi. Bạn có thể mở rộng câu trả lời của mình để bao gồm một lời giải thích ngắn gọn về cách bạn biết đó là nơi tối thiểu phải không?
Glen_b -Reinstate Monica

1
Một chiến lược như vậy bay trong khuôn mặt của việc ra quyết định tối ưu.
Frank Mitchell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.