Làm thế nào để bạn tạo các đường cong ROC để xác thực chéo một lần?


10

Khi thực hiện xác thực chéo 5 lần (ví dụ), thông thường sẽ tính một đường cong ROC riêng cho mỗi 5 lần và thường nhân một đường cong ROC trung bình với tiêu chuẩn. nhà phát triển hiển thị như độ dày đường cong.

Tuy nhiên, đối với xác thực chéo LOO, trong đó chỉ có một biểu dữ liệu kiểm tra duy nhất trong mỗi lần, có vẻ không hợp lý khi tính toán "đường cong" ROC cho điểm dữ liệu đơn này.

Tôi đã lấy tất cả các điểm dữ liệu thử nghiệm của mình (cùng với các giá trị p được tính riêng của chúng) và gộp chúng thành một tập hợp lớn để tính toán một đường cong ROC duy nhất, nhưng đây có phải là điều cần làm theo thống kê không?

Cách đúng để áp dụng phân tích ROC là gì khi số lượng điểm dữ liệu trong mỗi lần là một (như trong trường hợp xác thực chéo LOO)?


Tại sao? Bạn muốn đạt được điều gì với một sinh vật như vậy?

Tôi cần phân tích hiệu suất dự đoán tổng thể qua một loạt các ngưỡng giá trị p và các đường cong ROC là những gì tôi thường sử dụng cho mọi loại xác thực chéo khác. Vì vậy, về cơ bản các lý do tương tự mà phân tích ROC là hữu ích cho bất kỳ xác nhận chéo k-Fold. Nếu có một cách tiếp cận tương tự khác cho LOO xval thì đó cũng là điều tuyệt vời để biết. Ngoài ra, thay vào đó tôi sẽ làm một cái gì đó như xval 10 lần nếu tôi có đủ dữ liệu và điều này sẽ không thành vấn đề.
dùng1121

1
Tôi muốn nói rằng bạn đang làm điều đó một cách hợp lý, chỉ cần tạo một đường cong ROC duy nhất bằng cách sử dụng giá trị thực và giá trị dự đoán cho từng trường hợp (trong đó trường hợp đó là chờ đợi)
B_Miner

Câu trả lời:


15

Nếu trình phân loại đưa ra xác suất, thì việc kết hợp tất cả các đầu ra điểm kiểm tra cho một đường cong ROC duy nhất là phù hợp. Nếu không, thì hãy chia tỷ lệ đầu ra của trình phân loại theo cách có thể so sánh trực tiếp giữa các phân loại. Ví dụ: giả sử bạn đang sử dụng Phân tích phân biệt tuyến tính. Huấn luyện bộ phân loại và sau đó đưa dữ liệu đào tạo qua bộ phân loại. Tìm hiểu hai trọng số: tham số tỷ lệ (độ lệch chuẩn của đầu ra phân loại, sau khi trừ phương tiện lớp) và tham số thay đổi (giá trị trung bình của lớp đầu tiên). Sử dụng các tham số này để chuẩn hóa đầu ra thô của từng phân loại LDA thông quaμ r n = ( r - μ ) / σσμrn= =(r-μ)/σvà sau đó bạn có thể tạo đường cong ROC từ tập hợp các đầu ra được chuẩn hóa. Điều này có cảnh báo rằng bạn đang ước tính nhiều tham số hơn và do đó, kết quả có thể sai lệch một chút so với khi bạn xây dựng một đường cong ROC dựa trên một bộ thử nghiệm riêng biệt.

Nếu không thể bình thường hóa đầu ra phân loại hoặc chuyển đổi chúng thành xác suất, thì phân tích ROC dựa trên LOO-CV là không phù hợp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.