Tôi vừa đọc xong cuộc thảo luận này . Họ cho rằng PR AUC tốt hơn ROC AUC về dữ liệu không cân bằng.
Ví dụ: chúng tôi có 10 mẫu trong tập dữ liệu thử nghiệm. 9 mẫu dương tính và 1 mẫu âm tính. Chúng tôi có một mô hình khủng khiếp dự đoán mọi thứ tích cực. Do đó, chúng ta sẽ có một số liệu TP = 9, FP = 1, TN = 0, FN = 0.
Sau đó, Độ chính xác = 0,9, Gọi lại = 1,0. Độ chính xác và thu hồi đều rất cao, nhưng chúng tôi có một bộ phân loại kém.
Mặt khác, TPR = TP / (TP + FN) = 1.0, FPR = FP / (FP + TN) = 1.0. Vì FPR rất cao, chúng tôi có thể xác định rằng đây không phải là một phân loại tốt.
Rõ ràng, ROC tốt hơn PR trên các bộ dữ liệu mất cân bằng. Ai đó có thể giải thích tại sao PR là tốt hơn?