Tôi đang sử dụng phương pháp bootstrap để xác nhận nội bộ của một mô hình đa biến được xây dựng với hồi quy logistic tiêu chuẩn HOẶC lưới đàn hồi.
Quy trình tôi sử dụng như sau:
1) xây dựng mô hình bằng cách sử dụng toàn bộ tập dữ liệu, thu được các giá trị dự đoán và tính toán AUC (AUC_ap, rõ ràng)
2) tạo 100-500 mẫu bootstrap có nguồn gốc từ bộ dữ liệu ban đầu
3) cho mỗi mẫu bootstrap, hãy làm theo quy trình giống hệt như trong # 1, và lấy các giá trị dự đoán và đấu giá cho i) mẫu bootstrap hiện tại và ii) tập dữ liệu gốc
4) tính chênh lệch giữa i) và ii) (ở số 3) cho mỗi mẫu bootstrap 100-500 và lấy mức trung bình -> "lạc quan"
5) tính toán lạc quan AUC đã sửa: AUC_ap - lạc quan
Câu hỏi của tôi là đường cong ROC là gì tốt nhất để trình bày trong một bài báo? Ví dụ, ROC có nguồn gốc ở bước # 1 là một lựa chọn, nhưng rõ ràng lạc quan. Ngoài ra, tôi đã cố gắng tạo ra "ROC trung bình" bằng cách sử dụng gói ROCR R, dựa trên các đường cong ROC có được trong bước # 3 (ii). Tuy nhiên, AUC cho [trung bình của các đường cong ROC này] tôi không tin là tương đương với giá trị thu được ở bước # 5.
Bất kỳ đầu vào được đánh giá rất cao! -M