Tại sao AUC = 1 thậm chí phân loại đã phân loại sai một nửa số mẫu?


20

Tôi đang sử dụng một bộ phân loại trả về xác suất. Để tính toán AUC, tôi đang sử dụng gói RROC. Các xác suất đầu ra từ phân loại là:

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probscho thấy xác suất vào lớp '1'. Như được hiển thị, bộ phân loại đã phân loại tất cả các mẫu trong lớp '1'.

Vectơ nhãn thực sự là:

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

Như được hiển thị, phân loại đã phân loại sai 5 mẫu. Nhưng, AUC là:

pROC::auc(truel, probs)
Area under the curve: 1

Bạn có thể vui lòng giải thích cho tôi tại sao nó xảy ra?


Câu trả lời:


21

AUC là thước đo khả năng xếp hạng các ví dụ theo xác suất thành viên của lớp. Do đó, nếu tất cả các xác suất đều trên 0,5, bạn vẫn có thể có AUC là một nếu tất cả các mẫu dương có xác suất cao hơn tất cả các mẫu âm. Trong trường hợp này, sẽ có một ngưỡng quyết định cao hơn 0,5, sẽ đưa ra tỷ lệ lỗi bằng không. Lưu ý rằng vì AUC chỉ đo xếp hạng các xác suất, nên nó không cho bạn biết nếu xác suất được hiệu chỉnh tốt (ví dụ: không có sai lệch hệ thống), nếu việc hiệu chuẩn các xác suất là quan trọng thì hãy xem số liệu entropy chéo.


21

Các câu trả lời khác giải thích những gì đang xảy ra nhưng tôi nghĩ một bức ảnh có thể tốt.

Bạn có thể thấy rằng các lớp được phân tách hoàn hảo, vì vậy AUC là 1, nhưng ngưỡng ở mức 1/2 sẽ tạo ra tỷ lệ phân loại sai là 50%.

probs


21

Các mẫu không "phân loại sai" chút nào. Các 0ví dụ được xếp hạng thấp hơn so với các 1ví dụ. AUROC đang thực hiện chính xác những gì nó được xác định để làm, đó là đo xác suất để lựa chọn ngẫu nhiên 1được xếp hạng cao hơn so với lựa chọn ngẫu nhiên 0. Trong mẫu này, điều này luôn đúng, vì vậy đây là sự kiện xác suất 1.

Tom Fawcett có một bài viết lưu trữ tuyệt vời về các đường cong ROC. Tôi muốn đề nghị bắt đầu từ đó.

Tom Fawcett. "Giới thiệu về phân tích ROC." Mẫu thư nhận dạng. 2005.


3
+1 Bài báo Fawcett thực sự là một nơi rất tốt để bắt đầu.
Dikran Marsupial
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.