AIC và thống kê c đang cố gắng trả lời các câu hỏi khác nhau. (Ngoài ra một số vấn đề với thống kê c đã được nêu ra trong những năm gần đây, nhưng tôi sẽ đề cập đến vấn đề đó)
Nói đại khái:
- AIC đang cho bạn biết mô hình của bạn phù hợp như thế nào với chi phí phân loại sai cụ thể .
- AUC đang cho bạn biết mô hình của bạn sẽ hoạt động tốt như thế nào, trung bình, trên tất cả các chi phí phân loại sai.
Khi bạn tính toán AIC, bạn coi logistic của mình đưa ra dự đoán là 0,9 là dự đoán là 1 (nghĩa là nhiều khả năng là 1 hơn 0), tuy nhiên không cần phải như vậy. Bạn có thể lấy điểm logistic của mình và nói "mọi thứ trên 0,95 là 1, mọi thứ bên dưới là 0". Tại sao bạn sẽ làm điều này? Chà điều này sẽ đảm bảo rằng bạn chỉ dự đoán một khi bạn thực sự tự tin. Tỷ lệ dương tính giả của bạn sẽ thực sự rất thấp, nhưng âm tính giả của bạn sẽ tăng vọt. Trong một số tình huống, đây không phải là điều xấu - nếu bạn định buộc tội ai đó lừa đảo, trước tiên bạn có thể muốn thực sự chắc chắn. Ngoài ra, nếu rất tốn kém để theo dõi kết quả tích cực, thì bạn không muốn quá nhiều trong số họ.
Đây là lý do tại sao nó liên quan đến chi phí. Có một chi phí khi bạn phân loại 1 là 0 và chi phí khi bạn phân loại 0 là 1. Thông thường (giả sử bạn đã sử dụng một thiết lập mặc định), AIC cho hồi quy logistic đề cập đến trường hợp đặc biệt khi cả hai phân loại sai đều bằng nhau tốn kém. Đó là, hồi quy logistic cung cấp cho bạn tổng số dự đoán đúng nhất, không có bất kỳ ưu tiên nào cho tích cực hoặc tiêu cực.
Đường cong ROC được sử dụng vì điều này thể hiện dương tính thật so với dương tính giả nhằm chỉ ra cách phân loại sẽ thực hiện nếu bạn sử dụng nó theo các yêu cầu chi phí khác nhau. Thống kê c xuất hiện bởi vì bất kỳ đường cong ROC nào nằm hoàn toàn trên một đường cong khác rõ ràng là một phân loại thống trị. Do đó, trực quan để đo diện tích dưới đường cong là thước đo mức độ tốt của phân loại tổng thể.
Vì vậy, về cơ bản, nếu bạn biết chi phí của mình khi lắp mô hình, hãy sử dụng AIC (hoặc tương tự). Nếu bạn chỉ xây dựng một điểm số, nhưng không chỉ định ngưỡng chẩn đoán, thì cần có các phương pháp AUC (với lời cảnh báo sau về chính AUC).
Vậy điều gì là sai với thống kê c / AUC / Gini?
Trong nhiều năm, AUC là phương pháp tiêu chuẩn và vẫn được sử dụng rộng rãi, tuy nhiên có một số vấn đề với nó. Một điều làm cho nó đặc biệt hấp dẫn là nó tương ứng với một bài kiểm tra Wilcox trên hàng ngũ phân loại. Đó là nó đo lường xác suất rằng điểm của một thành viên được chọn ngẫu nhiên của một lớp sẽ cao hơn một thành viên được chọn ngẫu nhiên của lớp khác. Vấn đề là, đó gần như không bao giờ là một số liệu hữu ích.
Các vấn đề nghiêm trọng nhất với AUC đã được David Hand công khai vài năm trước. (Xem tài liệu tham khảo bên dưới) Điểm mấu chốt của vấn đề là trong khi AUC trung bình trên tất cả các chi phí, bởi vì trục x của đường cong ROC là Tỷ lệ dương sai, trọng số mà nó gán cho các chế độ chi phí khác nhau khác nhau giữa các phân loại. Vì vậy, nếu bạn tính AUC theo hai hồi quy logitic khác nhau, nó sẽ không đo được "cùng một thứ" trong cả hai trường hợp. Điều này có nghĩa là rất ít ý nghĩa để so sánh các mô hình dựa trên AUC.
Hand đã đề xuất một phép tính thay thế bằng cách sử dụng trọng số chi phí cố định và gọi đây là phép đo H - có một gói trong R được gọi hmeasure
sẽ thực hiện phép tính này và tôi tin rằng AUC để so sánh.
Một số tài liệu tham khảo về các vấn đề với AUC:
Khi nào khu vực dưới đường cong đặc tính vận hành máy thu là thước đo thích hợp của hiệu suất phân loại? DJ Hand, C. Anagnostopoulos Mẫu nhận dạng thư 34 (2013) 492 mộc495
(Tôi thấy đây là một lời giải thích đặc biệt dễ tiếp cận và hữu ích)