Mối quan hệ giữa KS, AUROC và Gini


11

Các thống kê xác thực mô hình phổ biến như kiểm tra KolmogorovTHER Smirnov (KS), AUROChệ số Gini đều liên quan đến chức năng. Tuy nhiên, câu hỏi của tôi phải làm với việc chứng minh làm thế nào những thứ này có liên quan. Tôi tò mò nếu có ai có thể giúp tôi chứng minh những mối quan hệ này. Tôi đã không thể tìm thấy bất cứ điều gì trực tuyến, nhưng tôi thực sự quan tâm làm thế nào các bằng chứng hoạt động. Ví dụ: tôi biết Gini = 2AUROC-1, nhưng bằng chứng tốt nhất của tôi liên quan đến việc chỉ vào biểu đồ. Tôi quan tâm đến bằng chứng chính thức. Mọi sự trợ giúp sẽ rất được trân trọng!


1
Theo KS, ý bạn là thống kê Kolmogorov-Smirnov? AUROC có lẽ là khu vực dưới đường cong ROC?
Nitesh

Có vẻ như bắt đầu từ Wikipedia và đi qua các tài liệu tham khảo ban đầu sẽ là một nơi tốt để bắt đầu.
LauriK

Câu trả lời:


1

Mục nhập Wikipedia cho đặc tính vận hành của máy thu tham chiếu tài liệu này cho kết quả Gini = 2AUROC-1: Hand, David J.; và Till, Robert J. (2001); Một khái quát đơn giản về khu vực dưới đường cong ROC cho nhiều vấn đề phân loại lớp, Machine Learning, 45, 171 Phản186. Nhưng tôi e rằng tôi không dễ dàng truy cập nó để xem nó gần với những gì bạn muốn.


1
... và nó có thể là một kết quả vô ích, vì Gini thường được áp dụng cho dữ liệu có hai nhãn phân loại, trong khi AUROC được áp dụng cho dữ liệu xếp hạng số + nhãn nhị phân. Họ có thể trùng hợp chỉ khi thứ hạng của bạn là nhị phân? trong trường hợp đó sẽ không có ý nghĩa gì khi sử dụng AUROC vì đây là đường cong 3 điểm chỉ có 2 bậc tự do ... (Tôi đã không kiểm tra kết quả đó, quá nhiều thư rác trên Wikipedia ngày nay.)
Có QUIT - Anony-Mousse

0

Theo bài báo (Adeodato, PJ L và Melo, SB 2016), có một mối quan hệ tuyến tính giữa Khu vực dưới đường cong KS (AUKS) và Khu vực dưới đường cong ROC (AUROC), cụ thể là:

AUROC=0.5+AUKS

Bằng chứng tương đương được bao gồm trong bài báo.


0

Kết quả Gini = 2 * AUROC-1 rất khó chứng minh vì nó không nhất thiết đúng. Bài viết Wikipedia về đường cong Đặc tính hoạt động của người nhận đưa ra kết quả như một định nghĩa về Gini và bài viết của Hand and Till (được trích dẫn bởi nealmcb) chỉ nói rằng định nghĩa đồ họa của Gini sử dụng đường cong ROC dẫn đến công thức này.

Điều đáng chú ý là định nghĩa này của Gini được sử dụng trong các cộng đồng máy học và kỹ thuật, nhưng một định nghĩa khác được sử dụng bởi các nhà kinh tế và nhân khẩu học (quay lại bài báo gốc của Gini). Bài viết Wikipedia về hệ số Gini đưa ra định nghĩa này, dựa trên đường cong Lorenz.

Một bài báo của Schechtman & Schechtman (2016) đưa ra mối quan hệ giữa AUC và định nghĩa Gini ban đầu. Nhưng để thấy rằng chúng không thể giống hệt nhau, giả sử rằng tỷ lệ của các sự kiện là p và chúng ta có một bộ phân loại hoàn hảo. Đường cong ROC sau đó đi qua góc trên bên trái và AUCROC là 1. Tuy nhiên, đường cong Lorenz (lật) chạy từ (0,0) đến ( p , 1) đến (1,1) và Gini của các nhà kinh tế là 1 - p / 2, gần nhưng không chính xác 1.

Nếu các sự kiện là hiếm, thì mối quan hệ Gini = 2 * AUROC-1 gần như không chính xác bằng cách sử dụng định nghĩa ban đầu của Gini. Mối quan hệ chỉ hoàn toàn chính xác nếu Gini được xác định lại để làm cho nó đúng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.