AUC có xác suất phân loại chính xác một thể hiện được chọn ngẫu nhiên từ mỗi lớp không?


10

Tôi đọc chú thích này trong một bài báo và chưa bao giờ thấy AUC được mô tả theo cách này ở bất cứ nơi nào khác. Điều này có đúng không? Có một bằng chứng hoặc cách đơn giản để thấy điều này?

Hình. 2 cho thấy độ chính xác dự đoán của các biến nhị phân được biểu thị theo diện tích dưới đường cong đặc tính vận hành máy thu (AUC), tương đương với xác suất phân loại chính xác hai người dùng được chọn ngẫu nhiên một từ mỗi lớp (ví dụ: nam và nữ ).

Đối với tôi, điều đó dường như không thể đúng, vì với AUC = 0,5, những điều trên sẽ cho thấy một người có xác suất 50% dự đoán chính xác một đồng xu lật hai lần liên tiếp, nhưng thực tế, bạn chỉ có 25% cơ hội dự đoán chính xác hai lần lật đồng xu liên tiếp. Ít nhất, đó là cách tôi nghĩ về tuyên bố này.


1
Tôi đánh giá cao khái niệm thể hiện trong tiêu đề không hoàn toàn đúng, nhưng để phù hợp với trích dẫn, không nên nói "xác suất phân loại chính xác ..." chứ không chỉ là "xác suất phân loại"? Điều đó làm tôi bối rối khi lần đầu tiên đọc nó.
Cá bạc

1
Đó là một tiêu đề đủ dài rồi! Tôi thực sự xem xét thêm "chính xác" tin hay không. :)
thecity2

Câu trả lời:


13

Báo giá hơi sai. Phát biểu đúng là ROC AUC là xác suất một ví dụ tích cực được chọn ngẫu nhiên được xếp hạng cao hơn so với ví dụ tiêu cực được chọn ngẫu nhiên. Điều này là do mối quan hệ giữa ROC AUC và bài kiểm tra xếp hạng Wilcoxon.

Bạn sẽ tìm thấy cuộc thảo luận trong Tom Fawcett " Giới thiệu về phân tích ROC ".


8

Mô tả của tác giả không hoàn toàn chính xác. Vùng bên dưới đường cong ROC thực sự bằng với xác suất một ví dụ tích cực được chọn ngẫu nhiên có điểm rủi ro cao hơn so với ví dụ tiêu cực được chọn ngẫu nhiên. Điều này không nhất thiết phải liên quan đến phân loại, nó chỉ là thước đo phân tách giữa các phân phối điểm.

Ví dụ về đồng xu của bạn, hãy tưởng tượng bạn có hai đồng xu và mỗi đồng xu có một số điểm liên quan đến nó. Sau đó, bạn lật cả hai đồng xu cho đến khi một đầu mọc lên và các đuôi khác (vì chúng ta đang điều chỉnh các kết quả khác nhau). Điều này tương đương với việc có một mô hình thực hiện tính điểm ngẫu nhiên và xác suất để đồng xu xuất hiện có điểm cao hơn (hoặc thấp hơn) là 1/2.


2

Mô tả bạn đã đọc là chính xác, mặc dù tôi không thích từ ngữ của nó. Vùng bên dưới đường cong ROC (AUC) là xác suất phân loại chính xác một cặp cá nhân ngẫu nhiên vào lớp 1 từ lớp 2. Đây là một thống kê dựa trên xếp hạng, vì vậy nếu bạn phải đoán liệu một cá nhân trong cặp có được xếp hạng cao hơn khác, đó chỉ là 50% cơ hội nếu đoán ngẫu nhiên. AUC giống hệt với thống kê kiểm tra xếp hạng có chữ ký của Wilcoxon và điều này có thể được sử dụng để minh họa ý nghĩa của nó.

[1]: Mason & Graham (2002). Các khu vực bên dưới các đặc tính vận hành tương đối (ROC) và các mức vận hành tương đối (ROL): Ý nghĩa thống kê và giải thích. Tạp chí hàng quý của Hiệp hội Khí tượng Hoàng gia. 128: 2145 sắt2166.


1

Như những người khác đã chỉ ra, AUC thể hiện xác suất mà một ví dụ được chọn ngẫu nhiên từ lớp tích cực sẽ nhận được, từ bộ phân loại, điểm cao hơn so với ví dụ được chọn ngẫu nhiên từ lớp phủ định.

Để chứng minh tính chất này, hãy xem: Làm thế nào để rút ra một công thức toán học cho AUC?

Hoặc nguồn được sử dụng cho câu trả lời đó: D. Hand, 2009, Đo hiệu suất phân loại: một sự thay thế mạch lạc cho khu vực dưới đường cong ROC

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.