Sự khác biệt trong những gì AIC và thống kê c (AUC) thực sự đo lường cho phù hợp với mô hình là gì?


29

Tiêu chí thông tin Akaike (AIC) và thống kê c (khu vực dưới đường cong ROC) là hai biện pháp phù hợp với mô hình cho hồi quy logistic. Tôi gặp khó khăn khi giải thích những gì đang xảy ra khi kết quả của hai biện pháp không nhất quán. Tôi đoán họ đang đo các khía cạnh hơi khác nhau của sự phù hợp với mô hình, nhưng những khía cạnh cụ thể đó là gì?

Tôi có 3 mô hình hồi quy logistic. Mô hình M0 có một số đồng biến chuẩn. Model M1 thêm X1 vào M0; mô hình M2 thêm X2 vào M0 (vì vậy M1 và M2 không được lồng nhau).

Sự khác biệt trong AIC từ M0 đến cả M1 và M2 là khoảng 15, cho thấy X1 và X2 đều cải thiện sự phù hợp với mô hình và khoảng cùng một lượng.

thống kê c là: M0, 0,70; M1, 0,73; M2 0,72. Sự khác biệt về thống kê c từ M0 đến M1 là đáng kể (phương pháp của DeLong et al 1988), nhưng sự khác biệt từ M0 đến M2 là không đáng kể, cho thấy X1 cải thiện sự phù hợp với mô hình, nhưng X2 thì không.

X1 không được thu thập thường xuyên. X2 được cho là thường xuyên được thu thập nhưng bị thiếu trong khoảng 40% trường hợp. Chúng tôi muốn quyết định nên bắt đầu thu thập X1 hay cải thiện bộ sưu tập X2 hoặc bỏ cả hai biến.

Từ AIC, chúng tôi kết luận rằng các biến tạo ra sự cải tiến tương tự cho mô hình. Có lẽ dễ dàng cải thiện bộ sưu tập X2 hơn là bắt đầu thu thập một biến hoàn toàn mới (X1), vì vậy chúng tôi sẽ hướng tới cải thiện bộ sưu tập X2. Nhưng từ thống kê c, X1 cải thiện mô hình và X2 thì không, vì vậy chúng ta nên quên X2 và bắt đầu thu thập X1.

Vì khuyến nghị của chúng tôi phụ thuộc vào thống kê mà chúng tôi tập trung vào, chúng tôi cần hiểu rõ sự khác biệt trong những gì họ đang đo lường.

Mọi lời khuyên đều được chào đón.

Câu trả lời:


25

AIC và thống kê c đang cố gắng trả lời các câu hỏi khác nhau. (Ngoài ra một số vấn đề với thống kê c đã được nêu ra trong những năm gần đây, nhưng tôi sẽ đề cập đến vấn đề đó)

Nói đại khái:

  • AIC đang cho bạn biết mô hình của bạn phù hợp như thế nào với chi phí phân loại sai cụ thể .
  • AUC đang cho bạn biết mô hình của bạn sẽ hoạt động tốt như thế nào, trung bình, trên tất cả các chi phí phân loại sai.

Khi bạn tính toán AIC, bạn coi logistic của mình đưa ra dự đoán là 0,9 là dự đoán là 1 (nghĩa là nhiều khả năng là 1 hơn 0), tuy nhiên không cần phải như vậy. Bạn có thể lấy điểm logistic của mình và nói "mọi thứ trên 0,95 là 1, mọi thứ bên dưới là 0". Tại sao bạn sẽ làm điều này? Chà điều này sẽ đảm bảo rằng bạn chỉ dự đoán một khi bạn thực sự tự tin. Tỷ lệ dương tính giả của bạn sẽ thực sự rất thấp, nhưng âm tính giả của bạn sẽ tăng vọt. Trong một số tình huống, đây không phải là điều xấu - nếu bạn định buộc tội ai đó lừa đảo, trước tiên bạn có thể muốn thực sự chắc chắn. Ngoài ra, nếu rất tốn kém để theo dõi kết quả tích cực, thì bạn không muốn quá nhiều trong số họ.

Đây là lý do tại sao nó liên quan đến chi phí. Có một chi phí khi bạn phân loại 1 là 0 và chi phí khi bạn phân loại 0 là 1. Thông thường (giả sử bạn đã sử dụng một thiết lập mặc định), AIC cho hồi quy logistic đề cập đến trường hợp đặc biệt khi cả hai phân loại sai đều bằng nhau tốn kém. Đó là, hồi quy logistic cung cấp cho bạn tổng số dự đoán đúng nhất, không có bất kỳ ưu tiên nào cho tích cực hoặc tiêu cực.

Đường cong ROC được sử dụng vì điều này thể hiện dương tính thật so với dương tính giả nhằm chỉ ra cách phân loại sẽ thực hiện nếu bạn sử dụng nó theo các yêu cầu chi phí khác nhau. Thống kê c xuất hiện bởi vì bất kỳ đường cong ROC nào nằm hoàn toàn trên một đường cong khác rõ ràng là một phân loại thống trị. Do đó, trực quan để đo diện tích dưới đường cong là thước đo mức độ tốt của phân loại tổng thể.

Vì vậy, về cơ bản, nếu bạn biết chi phí của mình khi lắp mô hình, hãy sử dụng AIC (hoặc tương tự). Nếu bạn chỉ xây dựng một điểm số, nhưng không chỉ định ngưỡng chẩn đoán, thì cần có các phương pháp AUC (với lời cảnh báo sau về chính AUC).

Vậy điều gì là sai với thống kê c / AUC / Gini?

Trong nhiều năm, AUC là phương pháp tiêu chuẩn và vẫn được sử dụng rộng rãi, tuy nhiên có một số vấn đề với nó. Một điều làm cho nó đặc biệt hấp dẫn là nó tương ứng với một bài kiểm tra Wilcox trên hàng ngũ phân loại. Đó là nó đo lường xác suất rằng điểm của một thành viên được chọn ngẫu nhiên của một lớp sẽ cao hơn một thành viên được chọn ngẫu nhiên của lớp khác. Vấn đề là, đó gần như không bao giờ là một số liệu hữu ích.

Các vấn đề nghiêm trọng nhất với AUC đã được David Hand công khai vài năm trước. (Xem tài liệu tham khảo bên dưới) Điểm mấu chốt của vấn đề là trong khi AUC trung bình trên tất cả các chi phí, bởi vì trục x của đường cong ROC là Tỷ lệ dương sai, trọng số mà nó gán cho các chế độ chi phí khác nhau khác nhau giữa các phân loại. Vì vậy, nếu bạn tính AUC theo hai hồi quy logitic khác nhau, nó sẽ không đo được "cùng một thứ" trong cả hai trường hợp. Điều này có nghĩa là rất ít ý nghĩa để so sánh các mô hình dựa trên AUC.

Hand đã đề xuất một phép tính thay thế bằng cách sử dụng trọng số chi phí cố định và gọi đây là phép đo H - có một gói trong R được gọi hmeasuresẽ thực hiện phép tính này và tôi tin rằng AUC để so sánh.

Một số tài liệu tham khảo về các vấn đề với AUC:

  • Khi nào khu vực dưới đường cong đặc tính vận hành máy thu là thước đo thích hợp của hiệu suất phân loại? DJ Hand, C. Anagnostopoulos Mẫu nhận dạng thư 34 (2013) 492 mộc495

    (Tôi thấy đây là một lời giải thích đặc biệt dễ tiếp cận và hữu ích)


2
Và đây là một bài báo khác của DJ Hand: Đo hiệu suất phân loại: một sự thay thế mạch lạc cho khu vực dưới đường cong ROC , Machine Learning (2009) 77: 103 Lỗi123.
chl

Đó là thứ tôi đang tìm kiếm - vâng đó là bài báo đầu tiên về vấn đề này (mặc dù tôi nghĩ rằng nó được nhắm đến đối tượng kỹ thuật nhiều hơn một số bài báo sau này).
Corone

3
R2

Tôi bối rối trước câu trả lời của Corone, tôi nghĩ AIC không liên quan gì đến hiệu suất dự đoán của một mô hình và đó chỉ là thước đo khả năng dữ liệu được trao đổi với độ phức tạp của mô hình.
Zhubarb

@Berkan không chắc chắn ý của bạn là "không liên quan gì đến hiệu suất dự đoán", trừ khi bạn chỉ đơn giản muốn nói đó là một biện pháp trong mẫu không nằm ngoài mẫu? (Khả năng càng tốt thì "dự đoán" các điểm dữ liệu đó càng tốt). Vấn đề là AIC dành cho một chức năng khả năng cụ thể, được chọn trước, trong khi AIC là trung bình trên một tập hợp của chúng. Nếu bạn biết khả năng (tức là ngưỡng, chi phí, tỷ lệ lưu hành ...) thì bạn có thể sử dụng AIC.
Corone

3

Tài liệu được trích dẫn không có cơ sở sử dụng trong thế giới thực trong chẩn đoán lâm sàng. Anh ta có một đường cong lý thuyết với 0,5 AUC, thay vào đó là một phân loại hoàn hảo. Anh ta sử dụng một bộ dữ liệu trong thế giới thực, trong đó các mô hình sẽ bị loại bỏ khỏi tầm tay, vì chúng rất tệ và khi tính các khoảng tin cậy xung quanh các phép đo (dữ liệu không được cung cấp nhưng được suy ra) có thể là ngẫu nhiên . Do thiếu dữ liệu trong thế giới thực (hoặc thậm chí là mô phỏng hợp lý), đây là một bài báo rỗng. Cá nhân tôi đã tham gia phân tích hàng ngàn phân loại trong số hàng ngàn bệnh nhân (có đủ mức độ tự do). Trong bối cảnh đó, lập luận của ông là không nhạy cảm.

Anh ta cũng có xu hướng siêu hạng (không phải là một dấu hiệu tốt trong bất kỳ bối cảnh nào) và đưa ra những khái quát không được hỗ trợ, ví dụ, các chi phí không thể biết được. Trong y học, có những chi phí được chấp nhận, chẳng hạn như 10% giá trị tiên đoán dương tính cho các xét nghiệm sàng lọc và 100.000 đô la cho mỗi năm điều chỉnh chất lượng cuộc sống cho các can thiệp trị liệu. Tôi cảm thấy khó tin rằng trong việc chấm điểm tín dụng, chi phí không được hiểu rõ sẽ xảy ra. Nếu anh ta nói (không rõ ràng) rằng các dương tính giả khác nhau và âm tính giả mang chi phí khác nhau, trong khi đó là một chủ đề rất thú vị, nó không giống phân loại nhị phân.

Nếu quan điểm của ông là hình dạng ROC có vấn đề, thì đối với người dùng tinh vi, đó là điều hiển nhiên và người dùng không tinh vi có nhiều thứ phải lo lắng hơn, ví dụ, kết hợp tỷ lệ lưu hành vào các giá trị tiên đoán tích cực và tiêu cực.

Cuối cùng, tôi không thể hiểu được cách phân loại khác nhau có thể được đánh giá dựa trên các giới hạn khác nhau trong thế giới thực được xác định bởi việc sử dụng mô hình (hoặc tài chính) của các mô hình. Rõ ràng, các điểm giới hạn khác nhau sẽ được chọn cho mỗi mô hình. Các mô hình sẽ không được so sánh chỉ dựa trên AUC. Các phân loại không quan trọng, nhưng hình dạng của đường cong thì có.


-1

Đối với tôi, điểm mấu chốt là mặc dù thống kê C (AUC) có thể có vấn đề khi so sánh các mô hình với các biến độc lập khác nhau (tương tự như cái mà Hand gọi là "phân loại"), nó vẫn hữu ích trong các ứng dụng khác. Ví dụ, các nghiên cứu xác nhận trong đó cùng một mô hình được so sánh giữa các quần thể nghiên cứu khác nhau (bộ dữ liệu). Nếu một mô hình hoặc chỉ số / điểm rủi ro được chứng minh là có tính phân biệt cao trong một dân số, nhưng không phải ở những người khác, điều này có thể có nghĩa là nó không phải là một công cụ rất tốt nói chung, nhưng có thể trong các trường hợp cụ thể.


3
R2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.