Đường cong ROC vs Precision-gợi nhớ trên tập dữ liệu không cân bằng


17

Tôi vừa đọc xong cuộc thảo luận này . Họ cho rằng PR AUC tốt hơn ROC AUC về dữ liệu không cân bằng.

Ví dụ: chúng tôi có 10 mẫu trong tập dữ liệu thử nghiệm. 9 mẫu dương tính và 1 mẫu âm tính. Chúng tôi có một mô hình khủng khiếp dự đoán mọi thứ tích cực. Do đó, chúng ta sẽ có một số liệu TP = 9, FP = 1, TN = 0, FN = 0.

Sau đó, Độ chính xác = 0,9, Gọi lại = 1,0. Độ chính xác và thu hồi đều rất cao, nhưng chúng tôi có một bộ phân loại kém.

Mặt khác, TPR = TP / (TP + FN) = 1.0, FPR = FP / (FP + TN) = 1.0. Vì FPR rất cao, chúng tôi có thể xác định rằng đây không phải là một phân loại tốt.

Rõ ràng, ROC tốt hơn PR trên các bộ dữ liệu mất cân bằng. Ai đó có thể giải thích tại sao PR là tốt hơn?


1
Chính xác và Nhớ lại đều bỏ qua Âm tính giả. Lý do thông thường cho việc sử dụng sự đánh đổi PR (đường cong hoặc điểm F) là số lượng Âm tính và Âm tính giả là rất lớn so với TP và FP. Vì vậy TNR-> 1 và FPR-> 0 (tổng bằng 1 với cùng một mẫu số | Negs | mẫu số). Vì vậy, PR trong trường hợp này phản ánh (khuếch đại hoặc phóng to) sự đánh đổi giữa TP và FP, nhưng điều này không có ý nghĩa và điều có liên quan là sự gia tăng chỉ số Youden J (Informedness = TPR-FPR = TPR + TNR-1 = Độ nhạy + Độ đặc hiệu-1) tương ứng với hai lần diện tích giữa đường cong điểm vận hành đơn hình tam giác và đường cơ hội ROC.
David MW Powers

2
@DavidMWPowers, tại sao không biến điều đó thành câu trả lời chính thức? Đó dường như là một phản ứng rất nhiều thông tin cho tôi.
gung - Phục hồi Monica

2
c

Câu trả lời:


8

Đầu tiên, yêu cầu trên bài Kaggle là không có thật. Bài báo mà họ tham khảo, " Mối quan hệ giữa đường cong chính xác và thu hồi ", không bao giờ tuyên bố rằng PR AUC tốt hơn ROC AUC. Họ chỉ đơn giản là so sánh tài sản của họ, mà không đánh giá giá trị của họ.

Đường cong ROC đôi khi có thể gây hiểu nhầm trong một số ứng dụng rất mất cân bằng. Một đường cong ROC vẫn có thể trông khá tốt (nghĩa là tốt hơn ngẫu nhiên) trong khi phân loại sai hầu hết hoặc tất cả các lớp thiểu số.

Ngược lại, các đường cong PR được thiết kế riêng để phát hiện các sự kiện hiếm gặp và khá hữu ích trong các tình huống đó. Chúng sẽ chỉ ra rằng trình phân loại của bạn có hiệu suất thấp nếu phân loại sai hầu hết hoặc tất cả các lớp thiểu số. Nhưng họ không dịch tốt cho các trường hợp cân bằng hơn, hoặc các trường hợp tiêu cực là hiếm.

Ngoài ra, vì chúng nhạy cảm với xác suất cơ bản của các sự kiện tích cực, chúng không khái quát tốt và chỉ áp dụng cho tập dữ liệu cụ thể mà chúng được xây dựng hoặc cho các kho dữ liệu có cùng số dư chính xác. Điều này có nghĩa là rất khó để so sánh các đường cong PR từ các nghiên cứu khác nhau, hạn chế tính hữu dụng của chúng.

Như mọi khi, điều quan trọng là phải hiểu các công cụ có sẵn cho bạn và chọn đúng công cụ cho ứng dụng phù hợp. Tôi đề nghị đọc câu hỏi ROC so với các đường cong chính xác và thu hồi ở đây trên CV.


3

Ví dụ của bạn là hoàn toàn chính xác.

Tuy nhiên, tôi nghĩ trong bối cảnh cạnh tranh Kaggle / ứng dụng thực tế, một tập dữ liệu sai lệch thường có nghĩa là một tập dữ liệu có mẫu dương tính hơn nhiều so với mẫu âm tính. Chỉ trong trường hợp này, PR AUC "có ý nghĩa" hơn ROC AUC.

Hãy xem xét một máy dò có TP = 9, FN = 1, TN = 900, FP = 90, trong đó có 10 mẫu âm tính và 990 âm tính. TPR = 0,9, FPR = 0,1 cho thấy điểm ROC tốt, tuy nhiên Độ chính xác = 0,1 cho thấy điểm PR kém.


0

Bạn đã được nửa chặng đường.

Thông thường khi tôi làm mô hình mất cân bằng, quái vật, thậm chí mô hình cân bằng, tôi nhìn vào PR cho TẤT CẢ các lớp học của tôi.

Trong ví dụ của bạn, có, lớp tích cực của bạn có P = 0,9 và R = 1,0. Nhưng những gì bạn nên nhìn vào là TẤT CẢ các lớp học của bạn. Vì vậy, đối với lớp phủ định của bạn, P = 0 và R = 0. Và bạn thường không chỉ nhìn vào điểm PR riêng lẻ. Bạn muốn xem điểm F1 (macro F1 hoặc vi mô F1, tùy thuộc vào vấn đề của bạn) đó là điểm trung bình hài hòa của điểm PR của bạn cho cả lớp 1 và lớp 0. Điểm PR lớp 1 của bạn là siêu tốt, nhưng kết hợp với Điểm PR lớp 0 của bạn, điểm F1 của bạn sẽ là TERRIBLE, đây là kết luận chính xác cho kịch bản của bạn.

TL, DR: Nhìn vào điểm PR cho TẤT CẢ các lớp của bạn và kết hợp chúng với một số liệu như điểm F1 để có kết luận thực tế về hiệu suất mô hình của bạn. Điểm F1 cho kịch bản của bạn sẽ là TERRIBLE, đây là kết luận chính xác cho kịch bản của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.