So sánh phân loại dựa trên AUROC hay độ chính xác?


11

Tôi có một vấn đề phân loại nhị phân và tôi thử nghiệm các phân loại khác nhau trên đó: Tôi muốn so sánh các phân loại. cái nào là thước đo tốt hơn AUC hay độ chính xác? Và tại sao?

Raondom Forest: AUC: 0.828  Accuracy: 79.6667 %
           SVM: AUC: 0.542  Accuracy: 85.6667 %

Câu trả lời:


13

Tỷ lệ được phân loại chính xác là một quy tắc chấm điểm không phù hợp, nghĩa là, nó được tối ưu hóa bởi một mô hình không có thật. Tôi sẽ sử dụng quy tắc chấm điểm thích hợp bậc hai được gọi là điểm Brier hoặc xác suất phù hợp (khu vực dưới đường cong ROC trong trường hợp nhị phân ). Rừng ngẫu nhiên hoạt động tốt hơn SVM trong trường hợp của bạn.Y


Nếu đối tượng trong mẫu của bạn là kết quả nhị phân quan sát được và là xác suất dự đoán của '1' thì điểm Brier là (nếu tôi nhớ) . Vì OP có vấn đề phân loại nhị phân, được biết đến nhưng làm thế nào để bạn tính toán cho SVM? ioi{0,1}f^iB=1ni=1n(f^ioi)2oif^i

@fcop Có một cách để chuyển đổi dự đoán phân loại nhị phân của SVM thành xác suất, được gọi là Platt Scaling ( en.wikipedia.org/wiki/Platt_scaling ). Về cơ bản, thay vì tính toán phân loại SVM ( hoặc ) là , trong đó là giải pháp cho lập trình bậc hai lồi SVM vấn đề, quy mô Platt có một phép biến đổi logistic của : trong đó và là các tham số được xác định bởi thuật toán chia tỷ lệ Platt. y^i=+11y^i=sign(g(yi,xi))g(yi,xi)g(yi,xi) ABf^i=P(Y=1|xi)=11+exp(A×g(yi,xi)+B)AB
RobertF

8

Tôi nghĩ bạn chắc chắn nên xem xét nhiều số liệu hơn là AUC và độ chính xác.

Độ chính xác (cùng với độ nhạy và độ đặc hiệu) là một số liệu rất đơn giản nhưng sai lệch buộc bạn phải xem kết quả dự đoán tuyệt đối và không mở để xác nhận xác suất hoặc xếp hạng của lớp. Nó cũng không tính đến dân số mà mời giải thích sai như một mô hình mang lại độ chính xác 95% cho dân số với 95% cơ hội đúng một cách ngẫu nhiên không thực sự là một mô hình tốt, ngay cả khi độ chính xác cao.

AUC là một số liệu tốt để khẳng định độ chính xác của mô hình độc lập với xác suất của lớp dân số. Tuy nhiên, nó sẽ không cho bạn biết bất cứ điều gì về ước tính xác suất thực sự tốt như thế nào. Bạn có thể nhận được AUC cao nhưng vẫn có ước tính xác suất rất sai lệch. Số liệu này phân biệt đối xử nhiều hơn độ chính xác và chắc chắn sẽ cung cấp cho bạn các mô hình tốt hơn khi được sử dụng kết hợp với một số quy tắc chấm điểm thích hợp, ví dụ: điểm Brier như được đề cập trong bài đăng khác.

Bạn có thể có được một bằng chứng chính thức hơn ở đây, mặc dù bài viết này khá lý thuyết: AUC: Một biện pháp thống nhất và thống nhất hơn so với độ chính xác

Tuy nhiên, có một loạt các số liệu tốt có sẵn. Các hàm mất cho ước tính xác suất và phân loại xác suất của lớp nhị phân: Cấu trúc và ứng dụng là một bài viết tốt để đầu tư các quy tắc chấm điểm thích hợp như điểm Brier.

Một bài báo thú vị khác với các số liệu để khẳng định hiệu suất mô hình là Đánh giá: từ độ chính xác, thu hồi và đo F đến ROC, thông tin, đánh dấu & tương quan chiếm các số liệu hiệu suất tốt khác như thông tin.

Để tóm tắt, tôi khuyên bạn nên xem điểm AUC / Gini và Brier để khẳng định hiệu suất mô hình của bạn, nhưng tùy thuộc vào mục tiêu với mô hình của bạn, các số liệu khác có thể phù hợp với vấn đề của bạn hơn.


Liên kết để Đánh giá: từ độ chính xác, thu hồi và đo F đến ROC, thông tin, đánh dấu và tương quan đã chết
vonjd

Nếu đối tượng trong mẫu của bạn là kết quả nhị phân quan sát được và là xác suất dự đoán của '1' thì điểm Brier là (nếu tôi nhớ) . Vì OP có vấn đề phân loại nhị phân, được biết đến nhưng làm thế nào để bạn tính toán cho SVM? o i{ 0 , 1 } f i B = 1ioi{0,1}f^ioi f iB=1ni=1n(f^ioi)2oif^i

Không có giới hạn là không tốt cho các phương pháp chỉ mang lại cho bạn một kết quả và không phải là một xác suất. Niether là một mặc dù vì điều này sẽ cho bạn biết bạn xếp hạng dự đoán của bạn tốt như thế nào. Chỉ với kết quả, bạn sẽ chỉ nhận được một điểm trong không gian ROC do đó cung cấp cho bạn khu vực dưới đường cong sẽ là hình tam giác. Nhưng nó vẫn sẽ cung cấp cho bạn một số và vì vậy sẽ vượt qua mọi giới hạn mặc dù nó sẽ ít nhiều biến thành thua 0-1. Nếu bạn chỉ có kết quả, tôi khuyên bạn nên xem Precision, Recall và Cohen's Kappa, những số liệu được thiết kế khi bạn có kết quả.
trong khi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.