Đường cong ROC cho bộ dữ liệu không cân bằng


10

Xét một ma trận đầu vào và một đầu ra nhị phân y .Xy

Một cách phổ biến để đo hiệu suất của trình phân loại là sử dụng các đường cong ROC.

Trong một biểu đồ ROC, đường chéo là kết quả sẽ thu được từ một bộ phân loại ngẫu nhiên. Trong trường hợp của một sản lượng không cân bằng thực hiện một phân ngẫu nhiên có thể được cải thiện lựa chọn 0 hoặc 1 với xác suất khác nhau.y01

Làm thế nào hiệu suất của trình phân loại như vậy có thể được biểu diễn trong biểu đồ đường cong ROC? Tôi cho rằng nó phải là một đường thẳng với một góc khác, và không phải là đường chéo nữa?

Ví dụ đường cong ROC


2
Thay vào đó, bạn có thể muốn thử đường cong thu hồi chính xác, "Âm mưu thu hồi chính xác có nhiều thông tin hơn âm mưu ROC khi đánh giá phân loại nhị phân trên bộ dữ liệu không cân bằng", ncbi.nlm.nih.gov/pmc/articles/PMC4349800 , nhiều khả năng trang web có thể truy cập được tạo bởi các tác giả của bài báo, classeval.wordpress.com/simulation-analysis/iêu
zyxue

Câu trả lời:


16

Đường cong ROC không nhạy cảm với cân bằng lớp. Đường thẳng mà bạn có được cho một bộ phân loại ngẫu nhiên bây giờ là kết quả của việc sử dụng các xác suất khác nhau của năng suất dương (0 đưa bạn đến (0, 0) và 1 đưa bạn đến (1, 1) với bất kỳ phạm vi nào ở giữa).

Không có gì thay đổi trong một thiết lập mất cân bằng.


1
Tôi thấy hữu ích khi xem xét ý nghĩa của khu vực dưới đường cong để xem tại sao đường chéo không thay đổi. AUC có thể được hiểu là xác suất để một ví dụ tích cực được chọn ngẫu nhiên sẽ có điểm cao hơn so với một ví dụ tiêu cực được chọn ngẫu nhiên. 1 . Điều này làm cho tôi rõ ràng hơn tại sao sự mất cân bằng lớp học không phải là một vấn đề.
JBecker
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.