Xác nhận nội bộ qua bootstrap: Trình bày ROC nào?


8

Tôi đang sử dụng phương pháp bootstrap để xác nhận nội bộ của một mô hình đa biến được xây dựng với hồi quy logistic tiêu chuẩn HOẶC lưới đàn hồi.

Quy trình tôi sử dụng như sau:

1) xây dựng mô hình bằng cách sử dụng toàn bộ tập dữ liệu, thu được các giá trị dự đoán và tính toán AUC (AUC_ap, rõ ràng)

2) tạo 100-500 mẫu bootstrap có nguồn gốc từ bộ dữ liệu ban đầu

3) cho mỗi mẫu bootstrap, hãy làm theo quy trình giống hệt như trong # 1, và lấy các giá trị dự đoán và đấu giá cho i) mẫu bootstrap hiện tại và ii) tập dữ liệu gốc

4) tính chênh lệch giữa i) và ii) (ở số 3) cho mỗi mẫu bootstrap 100-500 và lấy mức trung bình -> "lạc quan"

5) tính toán lạc quan AUC đã sửa: AUC_ap - lạc quan

Câu hỏi của tôi là đường cong ROC là gì tốt nhất để trình bày trong một bài báo? Ví dụ, ROC có nguồn gốc ở bước # 1 là một lựa chọn, nhưng rõ ràng lạc quan. Ngoài ra, tôi đã cố gắng tạo ra "ROC trung bình" bằng cách sử dụng gói ROCR R, dựa trên các đường cong ROC có được trong bước # 3 (ii). Tuy nhiên, AUC cho [trung bình của các đường cong ROC này] tôi không tin là tương đương với giá trị thu được ở bước # 5.

Bất kỳ đầu vào được đánh giá rất cao! -M

Câu trả lời:


5

c

Bên cạnh việc có năng suất thông tin thấp, các đường cong ROC mời các nhà phân tích tìm kiếm các điểm dừng về xác suất dự đoán, đây là một thảm họa ra quyết định.


0

Bạn đưa ra một câu hỏi rất hay mà tôi đã tự hỏi trong một thời gian dài. Có lẽ nó phụ thuộc vào kết quả của bạn để đưa ra quyết định làm thế nào để báo cáo. Trong hầu hết các tình huống, các tác giả muốn báo cáo AUC thô / rõ ràng (ví dụ: bước 1 trong câu hỏi của bạn) mặc dù có quá lạc quan hay không, và sau đó báo cáo sự lạc quan của bootstrap đã sửa AUC (ví dụ: bước # 5). xem tài liệu tham khảo: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0125026

Trong một số tình huống mà AUC dường như không quá lạc quan, tác giả sẽ trực tiếp báo cáo AUC đã sửa.

Đối với AUC ở bước # 3 (ii), nó hiếm khi được báo cáo và tốt hơn là bạn nên bỏ qua nó.


-2

Có nhiều chi tiết thiếu câu hỏi của bạn - tuy nhiên tôi thấy rằng bạn không nói về bộ kiểm tra tất cả. Nếu bạn có ý định chứng minh tính tổng quát của mô hình của mình (là trường hợp sử dụng chính cho đường cong ROC), bạn sẽ phải trình bày ROC có nguồn gốc từ một bộ kiểm tra , không phải xác thực hoặc xác thực nội bộ . hoặc một ROC trung bình có nguồn gốc từ nhiều bộ thử nghiệm. Do đó, điều quan trọng là bạn tìm cách tạo các bộ thử nghiệm và lấy nó từ đó.

Một tài liệu tham khảo tốt để tìm hiểu phân tích ROC (và cách tạo đường cong ROC trung bình) là:

Fawcett, T. (2006). Giới thiệu về phân tích ROC. Mẫu nhận dạng mẫu, 27 (8), 861 Lỗi874. http://www.scTHERirect.com/science/article/pii/S016786550500303X


Tạo một bộ kiểm tra từ cùng một luồng dữ liệu vẫn là xác nhận nội bộ và kém tin cậy hơn so với sử dụng bootstrap lạc quan. Xác nhận mẫu phân tách là vô cùng không hiệu quả và thực sự thường gây hiểu nhầm. Tôi thảo luận chi tiết về vấn đề này trong Biostatistic for Biomedical Research Phần 10.11 có sẵn từ biostat.mc.vanderbilt.edu/ClinStat
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.