Giải thích khu vực dưới đường cong PR


10

Tôi hiện đang so sánh ba phương pháp và tôi có Độ chính xác, auROC và auPR là số liệu. Và tôi có kết quả như sau:

Phương pháp A - acc: 0,75, auROC: 0,75, auPR: 0,45

Phương pháp B - acc: 0,65, auROC: 0,55, auPR: 0,40

Phương pháp C - acc: 0,55, auROC: 0,70, auPR: 0,65

Tôi hiểu rất rõ về độ chính xác và auROC (để nhớ rõ, tôi thường cố gắng đưa ra một câu như "auROC = mô tả khả năng dự đoán tốt về lớp tích cực", trong khi không chính xác nó giúp tôi nhớ). Tôi chưa bao giờ có dữ liệu auPR trước đây và trong khi tôi hiểu nó được xây dựng như thế nào thì tôi không thể có được "cảm giác" đằng sau nó.

Trong thực tế, tôi không hiểu tại sao phương pháp C có điểm số cực cao cho auPR trong khi lại kém / trung bình về độ chính xác và auPR.

Nếu ai đó có thể giúp tôi hiểu nó tốt hơn một chút với một lời giải thích đơn giản sẽ thực sự tuyệt vời. Cảm ơn bạn.

Câu trả lời:


11

Một trục của đường cong ROC và PR là như nhau, đó là TPR: có bao nhiêu trường hợp tích cực đã được phân loại chính xác trong số tất cả các trường hợp tích cực trong dữ liệu.

Các trục khác là khác nhau. ROC sử dụng FPR, đó là số lượng tích cực khai báo sai trong số tất cả các tiêu cực trong dữ liệu. Đường cong PR sử dụng độ chính xác: có bao nhiêu tích cực thực sự trong số tất cả những gì đã được dự đoán là tích cực. Vì vậy, cơ sở của trục thứ hai là khác nhau. ROC sử dụng những gì trong dữ liệu, PR sử dụng những gì trong dự đoán làm cơ sở.

Đường cong PR được cho là có nhiều thông tin hơn khi có sự mất cân bằng cao cấp trong dữ liệu, xem bài viết này http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .


1
Đối với auROC 0,5 là mức tối thiểu (vì ít hơn sẽ tốt hơn bằng cách đảo ngược dự đoán). Có một số quy tắc tương tự với auPR? Cũng liên quan đến các phép đo của tôi: tôi có thể khẳng định điều gì bằng cách nhìn vào điểm số của Phương pháp C? Bởi vì tôi đang làm việc với cùng một tập dữ liệu trong 3 trường hợp và theo quan điểm của tôi về một tập dữ liệu có phân phối nhiều hơn hoặc ít hơn giữa các lớp, điều đó sẽ không có nghĩa là auROC và auPR không theo cùng một thứ hạng cho tôi phương pháp.
AdrienNK

1
điểm phân loại ngẫu nhiên trong auPR là gì? Tôi biết đó là 0,5 trong auROC nhưng tôi không thể biết ở auPR.
Jack Twain

9
Điểm auPR dự kiến ​​cho một bộ phân loại ngẫu nhiên chỉ là tỷ lệ của các trường hợp dương tính thực sự trong bộ dữ liệu. Đó là độ chính xác mà bạn mong đợi nếu bạn đoán được lớp và bạn sẽ có được độ chính xác đó cho tất cả các mức thu hồi. Vì vậy, đường cong PR dự kiến ​​cho phân loại ngẫu nhiên chỉ là một hình chữ nhật có độ dài cạnh "tỷ lệ dương tính thật" x 1. Ví dụ: nếu tập dữ liệu của bạn chứa 10% trường hợp dương tính và 90% trường hợp âm tính, thì khả năng auPR dự kiến ​​là 0,1.
Lizzie Bạc
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.