Khu vực dưới đường cong của ROC so với độ chính xác tổng thể


29

Tôi hơi khó hiểu về Vùng dưới đường cong (AUC) của ROC và độ chính xác tổng thể.

  1. AUC sẽ tỷ lệ thuận với độ chính xác tổng thể? Nói cách khác, khi chúng ta có độ chính xác tổng thể lớn hơn, chúng ta có chắc chắn sẽ nhận được AUC lớn hơn không? Hay theo định nghĩa chúng có mối tương quan tích cực?

  2. Nếu chúng có mối tương quan tích cực, tại sao chúng ta bận tâm báo cáo cả hai trong một số ấn phẩm?

  3. Trong trường hợp thực tế, tôi đã thực hiện một số nhiệm vụ phân loại và nhận được kết quả như sau: phân loại A có độ chính xác 85% và AUC là 0,98 và phân loại B có độ chính xác 93% và AUC là 0,92. Câu hỏi là, phân loại nào là tốt hơn? Hoặc có thể nhận được kết quả tương tự như thế này (ý tôi là có thể có lỗi trong quá trình thực hiện của tôi)?


1
Tôi tìm thấy một bài báo có thể có một số quan tâm cho một số bạn. google.co.uk/ từ
Samo Jerom

Không phải AUC được cho là thấp hơn độ chính xác tổng thể vì chúng ta tính tỷ lệ dương tính giả trong thước đo AUC trong khi chúng ta không chính xác ???
Ali Sultan

ROC AUC có lợi khi các lớp có kích thước khác nhau. Nếu 99% đối tượng dương tính, độ chính xác 99% có thể đạt được bằng cách lấy mẫu ngẫu nhiên. Khi đó giá trị ROC AUC sẽ có ý nghĩa hơn nhiều.
Anony-Mousse

Câu trả lời:


26

AUC (dựa trên ROC) và độ chính xác tổng thể dường như không giống nhau.

Độ chính xác tổng thể dựa trên một điểm cắt cụ thể, trong khi ROC thử tất cả các điểm cắt và vẽ độ nhạy và độ đặc hiệu. Vì vậy, khi chúng tôi so sánh độ chính xác tổng thể, chúng tôi đang so sánh độ chính xác dựa trên một số điểm cắt. Độ chính xác tổng thể khác nhau từ điểm cắt khác nhau.


2
Cảm ơn rất nhiều vì trả lời của bạn! Tôi hiểu rằng độ chính xác tổng thể có được từ điểm cắt (hoặc giá trị ngưỡng) nhất định. Tuy nhiên, có một điểm cắt tốt nhất, nghĩa là điểm gần góc trên cùng bên trái. Ví dụ, độ chính xác tổng thể của tôi được tính bằng điểm cắt tốt nhất này và AUC dành cho tất cả các điểm cắt khác nhau. Vậy thì làm thế nào để giải thích sự chính xác này và AUC? Ví dụ, hiệu suất của hai phân loại tôi đã đề cập ở trên.
Samo Jerom

3
Ồ, tôi hiểu rồi. Bạn đang so sánh độ chính xác tổng thể tốt nhất và AUC. Nhưng họ vẫn là khái niệm khác nhau một lần nữa. AUC là P (dự đoán TRUE | TRUE thực tế) so với P (FALSE | FALSE), trong khi độ chính xác tổng thể là P = P (TRUE | TRUE) * P (TRUE thực tế) + P (FALSE | FALSE) * P ( FALSE thực tế). Vì vậy, điều này phụ thuộc vào tỷ lệ của giá trị thực trên tập dữ liệu của bạn rất nhiều. Trong thực tế, dường như độ chính xác tổng thể tốt nhất thường đạt được khi điểm cắt gần P (TRUE thực tế).
Vincent

Vì vậy, AUC và độ chính xác tổng thể tốt nhất có thể không nhất quán, tùy thuộc vào tỷ lệ giá trị thực của tập dữ liệu của bạn. Trong trường hợp của bạn, có vẻ như một trong những phân loại tập trung nhiều hơn vào độ nhạy trong khi cái còn lại về tính đặc hiệu. Và trên tập dữ liệu hiện tại của bạn, P (TRUE) không phải là 50%. Vì vậy, độ nhạy và độ đặc hiệu đóng góp vào độ chính xác tổng thể theo trọng số khác nhau. Trong thực tế, ROC có thể cung cấp cho chúng tôi nhiều thông tin hơn và chúng tôi muốn chọn trường hợp phân loại theo từng trường hợp. Ví dụ: trình phân loại thư rác có thể tập trung nhiều hơn vào P (không phải thư rác | không phải thư rác) để tránh bỏ sót các email quan trọng.
Vincent

Cảm ơn câu trả lời của bạn. Bây giờ thì rõ ràng hơn nhiều. Nhưng nếu ai đó có nhiều điều muốn thảo luận xin vui lòng gửi ở đây.
Samo Jerom

27

Trong khi hai biện pháp thống kê có khả năng tương quan với nhau, chúng đo lường các phẩm chất khác nhau của phân loại.

AUROC

Vùng bên dưới đường cong (AUC) bằng với xác suất phân loại sẽ xếp hạng một trường hợp tích cực được chọn ngẫu nhiên cao hơn một ví dụ tiêu cực được chọn ngẫu nhiên. Nó đo kỹ năng phân loại trong việc xếp hạng một tập các mẫu theo mức độ mà chúng thuộc về lớp tích cực, nhưng không thực sự gán các mẫu cho các lớp.

Độ chính xác tổng thể cũng phụ thuộc vào khả năng của trình phân loại để xếp hạng các mẫu, nhưng cũng phụ thuộc vào khả năng chọn ngưỡng trong xếp hạng được sử dụng để gán các mẫu cho lớp dương nếu ở trên ngưỡng và cho lớp âm nếu ở dưới.

Do đó, bộ phân loại có thống kê AUROC cao hơn (tất cả mọi thứ đều bằng nhau) có khả năng cũng có độ chính xác tổng thể cao hơn vì xếp hạng các mẫu (mà AUROC đo lường) có lợi cho cả AUROC và độ chính xác tổng thể. Tuy nhiên, nếu một trình phân loại xếp hạng các mẫu tốt, nhưng chọn ngưỡng không tốt, thì nó có thể có AUROC cao nhưng độ chính xác tổng thể kém.

Công dụng thực tế

Trong thực tế, tôi muốn thu thập độ chính xác tổng thể, AUROC và nếu trình phân loại ước tính xác suất thành viên của lớp, thông tin liên kết chéo hoặc thông tin dự đoán. Sau đó, tôi có một số liệu đo khả năng thô của nó để thực hiện phân loại cứng (giả sử chi phí phân loại sai âm tính dương và giả là bằng nhau và tần số lớp trong mẫu giống như trong sử dụng vận hành - một giả định lớn!), một số liệu đo lường khả năng xếp hạng các mẫu và một số liệu đo lường mức độ xếp hạng được hiệu chuẩn như một xác suất.

Đối với nhiều tác vụ, chi phí phân loại sai hoạt động là không xác định hoặc thay đổi hoặc tần số của lớp hoạt động khác với tần suất trong mẫu đào tạo hoặc là biến. Trong trường hợp đó, độ chính xác tổng thể thường khá vô nghĩa và AUROC là một chỉ số hiệu suất tốt hơn và lý tưởng là chúng tôi muốn một bộ phân loại đưa ra các xác suất được hiệu chỉnh tốt, để chúng tôi có thể bù cho các vấn đề này trong sử dụng vận hành. Về cơ bản, số liệu nào là quan trọng phụ thuộc vào vấn đề chúng tôi đang cố gắng giải quyết.


Dikran, bạn có một tài liệu tham khảo cho đoạn đầu tiên của bạn?
Bunder

@Bunder không trực tiếp, AUROC là xác suất mà mẫu + ve được chọn ngẫu nhiên sẽ được xếp hạng cao hơn mẫu -ve được chọn ngẫu nhiên ( en.wikipedia.org/wiki/ phỏng ) và do đó là thước đo chất lượng của xếp hạng , như chúng ta muốn xác suất đó càng cao càng tốt.
Dikran Marsupial

5

Là AUC thực sự rất hữu ích số liệu?

Tôi sẽ nói chi phí dự kiến ​​là biện pháp thích hợp hơn.

Sau đó, bạn sẽ có chi phí A cho tất cả các vị trí sai và chi phí B cho tất cả các âm tính giả. Nó có thể dễ dàng là lớp khác là tương đối đắt hơn so với lớp khác. Tất nhiên, nếu bạn có chi phí cho việc phân loại sai trong các nhóm phụ khác nhau thì nó sẽ còn mạnh hơn nữa.

Bằng cách vẽ sơ đồ cắt theo trục x và chi phí dự kiến ​​trên trục y, bạn có thể thấy điểm cắt nào giảm thiểu chi phí dự kiến.

Chính thức bạn có một mất chức năng Mất (cắt đứt | dữ liệu, chi phí) mà bạn cố gắng giảm thiểu.


3
Chi phí dự kiến ​​chỉ có thể được đánh giá nếu bạn biết chi phí dương tính giả và âm tính giả, không cần thiết để tính toán AUC, đây là một thống kê tốt để sử dụng nếu chi phí không xác định hoặc thay đổi.
Dikran Marsupial

4

Giống như tất cả các câu trả lời đã được đăng: ROCaccuracy là hai khái niệm cơ bản khác nhau.

Nói chung, ROC mô tả sức mạnh phân biệt của một bộ phân loại độc lập với phân phối lớp và chi phí lỗi dự đoán không đồng đều (chi phí âm và dương giả).

Số liệu như accuracyđược tính dựa trên phân phối lớp của test datasethoặc cross-validation, nhưng tỷ lệ này có thể thay đổi khi bạn áp dụng trình phân loại cho dữ liệu thực tế, vì phân phối lớp bên dưới đã bị thay đổi hoặc không xác định. Mặt khác, TP rateFP rateđược sử dụng để xây dựng AUCsẽ không bị ảnh hưởng bởi sự dịch chuyển phân phối lớp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.