Điều đó có nghĩa là AUC là một quy tắc chấm điểm bán đúng?


16

Quy tắc chấm điểm thích hợp là quy tắc được tối đa hóa theo mô hình 'đúng' và nó không cho phép 'phòng ngừa rủi ro' hoặc chơi trò chơi trên hệ thống (cố tình báo cáo các kết quả khác nhau như niềm tin thực sự của mô hình để cải thiện điểm số). Điểm Brier là đúng, độ chính xác (tỷ lệ được phân loại chính xác) là không chính xác và thường không được khuyến khích. Đôi khi tôi thấy rằng AUC được gọi là quy tắc chấm điểm bán đúng, làm cho nó không hoàn toàn không có thật là chính xác, nhưng kém nhạy hơn các quy tắc phù hợp (ví dụ ở đây /stats//a/90705/53084 ).

Quy tắc chấm điểm bán đúng nghĩa là gì? Nó được định nghĩa ở đâu đó?


Một nguồn hoặc tài liệu tham khảo nơi bạn thấy thuật ngữ này có thể giúp mọi người khai thác?
Sixiang.Hu

Tôi tin rằng điều này có liên quan đến thực tế là AUC xấp xỉ bằng chỉ số phù hợp, là một điểm số thích hợp, trong trường hợp dự đoán xác suất. Nhưng điều này nghe có vẻ như là một câu hỏi để Frank Harrell trả lời: stats.stackexchange.com/users/4253/frank-harrell
Cân bằng Brash

2
theo như tôi biết, AUC là chỉ số phù hợp, không phải là propper.
rep_ho

Câu trả lời:


14

Hãy bắt đầu với một ví dụ. Say Alice là một huấn luyện viên theo dõi và muốn chọn một vận động viên để đại diện cho đội trong một sự kiện thể thao sắp tới, chạy nước rút 200m. Tự nhiên cô muốn chọn người chạy nhanh nhất.

  • Một quy tắc tính điểm đúng đắn sẽ là đề cử người chạy nhanh nhất của đội trong khoảng cách 200m. Điều này tối đa hóa chính xác những gì HLV Alice muốn trong tình huống này. Các vận động viên với hiệu suất dự kiến ​​nhanh nhất được chọn - đây là một bài kiểm tra phân biệt đối xử công bằng.
  • Một quy tắc tính điểm thích hợp sẽ là chọn một vận động viên có khả năng chạy 200m nhanh nhất nhưng thời gian được làm tròn đến nửa giây gần nhất. Các vận động viên tốt nhất cũng như có khả năng một số vận động viên khác cũng sẽ có thể vượt qua bài kiểm tra này. Tất cả các vận động viên được chọn theo cách này khá cạnh tranh nhưng rõ ràng đây không phải là một bài kiểm tra phân biệt đối xử hoàn hảo về tốc độ.
  • Một quy tắc tính điểm bán thích hợp sẽ là chọn một vận động viên có khả năng chạy 200m dưới ngưỡng thời gian cạnh tranh, ví dụ 22 giây. Như trước đây, vận động viên giỏi nhất cũng như một số vận động viên khác cũng sẽ có thể vượt qua bài kiểm tra này. Tương tự như vậy, tất cả các vận động viên được chọn theo cách này có thể khá cạnh tranh nhưng rõ ràng không chỉ đây không phải là một bài kiểm tra phân biệt đối xử hoàn hảo mà còn có thể trở nên tồi tệ khủng khiếp (nếu chúng ta chọn thời gian quá khoan dung hoặc quá nghiêm ngặt). Lưu ý rằng điều đó không hoàn toàn sai.
  • Một quy tắc tính điểm không phù hợp sẽ là chọn vận động viên có đôi chân khỏe nhất, ví dụ ai có thể ngồi xổm nhiều nhất. Chắc chắn, bất kỳ người chạy nước rút giỏi nào cũng có thể có đôi chân rất khỏe nhưng bài kiểm tra này có nghĩa là một số kẻ từ đội nâng tạ sẽ xuất sắc ở đây. Rõ ràng một người nâng tạ trong cuộc đua 200m sẽ là thảm họa!

Trong khi phần nào tầm thường hóa, ví dụ trên cho thấy những gì diễn ra với việc sử dụng các quy tắc tính điểm. Alice đã dự báo thời gian nước rút dự kiến. Trong bối cảnh phân loại, chúng tôi dự báo xác suất giảm thiểu lỗi của phân loại xác suất.

  • Một quy tắc chấm điểm đúng đắn , như điểm Brier, đảm bảo rằng điểm số tốt nhất sẽ chỉ đạt được khi chúng ta càng gần với xác suất thực nhất có thể.
  • Một quy tắc tính điểm thích hợp , như điểm xác suất được xếp hạng liên tục (CRPS), không đảm bảo rằng điểm số tốt nhất sẽ chỉ đạt được bởi một bộ phân loại có dự đoán gần nhất với xác suất thực. Các phân loại ứng cử viên khác có thể đạt được điểm CRPS phù hợp với điểm phân loại tối ưu.
  • Một quy tắc tính điểm bán đúng , như AUC-ROC, không những không đảm bảo rằng hiệu suất tốt nhất sẽ đạt được bởi một bộ phân loại có dự đoán gần nhất với xác suất thực, mà còn (có khả năng) có thể cải thiện các giá trị của AUC-ROC bằng cách di chuyển các xác suất dự đoán ra khỏi các giá trị thực của chúng. Tuy nhiên, trong các điều kiện nhất định (ví dụ: phân phối lớp là một ưu tiên được biết đến trong trường hợp AUC-ROC) các quy tắc đó có thể xấp xỉ một quy tắc chấm điểm thích hợp. Byrne (2016) " Một lưu ý về việc sử dụng AUC theo kinh nghiệm để đánh giá dự báo xác suất " nêu lên một số điểm thú vị liên quan đến AUC-ROC.
  • Một quy tắc chấm điểm không phù hợp , như Độ chính xác, cung cấp rất ít hoặc không liên quan đến nhiệm vụ ban đầu của chúng tôi là dự đoán xác suất càng gần càng tốt với xác suất thực.

Như chúng ta thấy quy tắc chấm điểm bán đúng là không hoàn hảo nhưng nó cũng không hoàn toàn là thảm họa. Nó có thể khá hữu ích trong quá trình dự đoán thực sự! Cagdas Ozgenc có một ví dụ tuyệt vời ở đây , nơi làm việc với một quy tắc không phù hợp / bán đúng sẽ thích hợp hơn một quy tắc đúng đắn. Nói chung, thuật ngữ chấm điểm bán đúng là không phổ biến. Nó được liên kết với các quy tắc không phù hợp có thể vẫn hữu ích (ví dụ: AUC-ROC hoặc MAE trong phân loại xác suất).

Cuối cùng, nhận thấy một cái gì đó quan trọng. Vì chạy nước rút được liên kết với đôi chân mạnh mẽ, do đó, phân loại xác suất chính xác với Độ chính xác. Không chắc rằng một người chạy nước rút giỏi sẽ có đôi chân yếu và tương tự như vậy, không chắc là một người phân loại tốt sẽ có Độ chính xác xấu. Tuy nhiên, đánh đồng Độ chính xác với hiệu suất phân loại tốt cũng giống như đánh đồng sức mạnh chân với hiệu suất chạy nước rút tốt. Không hoàn toàn vô căn cứ nhưng rất hợp lý để dẫn đến kết quả vô nghĩa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.