Phân loại / số liệu đánh giá cho dữ liệu mất cân bằng cao


22

Tôi xử lý vấn đề phát hiện gian lận (giống như điểm tín dụng). Như vậy, có một mối quan hệ rất mất cân bằng giữa các quan sát gian lận và không gian lận.

http://blog.revolutionanalytics.com/2016/03/com_group_eval_metrics_r.html cung cấp một cái nhìn tổng quan tuyệt vời về các số liệu phân loại khác nhau. Precision and Recallhoặc kappacả hai dường như là một lựa chọn tốt:

Một cách để biện minh cho kết quả của các phân loại như vậy là bằng cách so sánh chúng với các phân loại cơ bản và cho thấy rằng chúng thực sự tốt hơn các dự đoán cơ hội ngẫu nhiên.

Theo tôi hiểu, kappacó thể là sự lựa chọn tốt hơn một chút ở đây, vì cơ hội ngẫu nhiên được tính đến. Từ Cohen's kappa bằng tiếng Anh đơn giản, tôi hiểu rằng kappaliên quan đến khái niệm thu thập thông tin:

[...] Độ chính xác được quan sát là 80% ít ấn tượng hơn với Độ chính xác dự kiến ​​là 75% so với Độ chính xác dự kiến ​​là 50% [...]

Do đó, câu hỏi của tôi sẽ là:

  • Là chính xác để giả định kappalà một số liệu phân loại phù hợp hơn cho vấn đề này?
  • Có phải chỉ đơn giản là sử dụng kappangăn chặn các tác động tiêu cực của sự mất cân bằng trên thuật toán phân loại? Có phải học lại (xuống / lên) hoặc lấy mẫu dựa trên chi phí (xem http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) vẫn được yêu cầu không?

lấy mẫu lên / xuống dữ liệu của bạn là điều bạn nên làm khi dữ liệu huấn luyện bị mất cân bằng dữ liệu của bạn và đôi khi có thể giúp ngăn chặn các trình phân loại bỏ qua (các) lớp thiểu số. Việc sử dụng dữ liệu được lấy lại khi đánh giá trình phân loại của bạn là không phù hợp (và một chút gian lận) - bạn sẽ báo cáo hiệu suất mà trình phân loại của bạn không có khi được áp dụng trên một mẫu được phân phối giống hệt với dữ liệu thử nghiệm ban đầu của bạn.
dùng48956

Câu trả lời:


10

Vâng, giả định của bạn về Kappa có vẻ đúng. Kappa là số liệu đơn lẻ, vô hướng là chủ yếu và lợi thế so với các số liệu đơn lẻ, vô hướng khác như độ chính xác, sẽ không phản ánh hiệu suất dự đoán của các lớp nhỏ hơn (bị che khuất bởi hiệu suất của bất kỳ lớp nào lớn hơn nhiều). Kappa giải quyết vấn đề này một cách thanh lịch hơn, như bạn đã chỉ ra.

Sử dụng một số liệu như Kappa để đo hiệu suất của bạn sẽ không nhất thiết phải tăng cách mô hình của bạn phù hợp với dữ liệu. Bạn có thể đo hiệu suất của bất kỳ mô hình nào bằng cách sử dụng một số số liệu, nhưng cách mô hình phù hợp với dữ liệu được xác định bằng các tham số khác (ví dụ: siêu đường kính). Vì vậy, bạn có thể sử dụng, ví dụ Kappa để chọn loại mô hình phù hợp nhất và siêu phân phối trong số nhiều lựa chọn cho vấn đề rất mất cân bằng của bạn - nhưng chỉ tính toán chính Kappa sẽ không thay đổi cách mô hình của bạn phù hợp với dữ liệu mất cân bằng của bạn.

Đối với các số liệu khác nhau: bên cạnh Kappa và độ chính xác / thu hồi, cũng hãy xem tỷ lệ âm tính thật và âm thực TPR / TNR, và các đường cong ROC và khu vực dưới đường cong AUC. Cái nào hữu ích cho vấn đề của bạn chủ yếu sẽ phụ thuộc vào chi tiết mục tiêu của bạn. Ví dụ: thông tin khác nhau được phản ánh trong TPR / TNR và độ chính xác / thu hồi: là mục tiêu của bạn để có một tỷ lệ gian lận cao thực sự được phát hiện như vậy và một phần lớn các giao dịch hợp pháp được phát hiện như vậy và / hoặc giảm thiểu chia sẻ báo động sai (mà bạn sẽ tự nhiên nhận được "en mass" với các vấn đề như vậy) trong tất cả các báo động?

Đối với up- / downsampling: Tôi nghĩ rằng không có câu trả lời chính tắc nào cho "nếu những điều đó là bắt buộc". Họ là một cách thích ứng với vấn đề của bạn. Về mặt kỹ thuật: có, bạn có thể sử dụng chúng, nhưng cẩn thận sử dụng chúng, đặc biệt là lấy mẫu (bạn có thể tạo ra các mẫu không thực tế mà không nhận thấy nó) - và lưu ý rằng việc thay đổi tần suất mẫu của cả hai lớp thành một thứ không thực tế "trong tự nhiên "Cũng có thể có tác động tiêu cực đến hiệu suất dự đoán. Ít nhất là bộ thử nghiệm được tổ chức cuối cùng sẽ phản ánh tần số thực tế của các mẫu một lần nữa. Điểm mấu chốt: Tôi đã thấy cả hai trường hợp thực hiện và không thực hiện - / hoặc downsampling dẫn đến kết quả cuối cùng tốt hơn, vì vậy đây là điều bạn có thể cần thử (nhưng không thao tác (các) bộ kiểm tra của bạn!) .


Nhưng cách tiếp cận dựa trên chi phí như DOI 10.1109 / ICMLA.2014.48 có phù hợp hơn vì tác động kinh doanh tổng thể được xem xét?
Georg Heiler

15

TPFPFN ):

  • Điểm F1 , là trung bình hài hòa của độ chính xácthu hồi .
  • G-đo , là trung bình hình học của độ chính xácthu hồi . So với F1, tôi đã thấy nó tốt hơn một chút đối với dữ liệu mất cân bằng.
  • TP/(TP+FP+FN)

Lưu ý: Đối với các bộ dữ liệu không cân bằng, tốt nhất là để số liệu của bạn được tính trung bình theo vĩ mô .


1
Bạn có ý nghĩa gì khi 'tốt hơn' khi đề cập đến G-đo và Chỉ số Jaccard?
Narfanar

8

Đối với các bộ dữ liệu không cân bằng, số liệu Độ chính xác trung bình đôi khi là sự thay thế tốt hơn cho AUROC. Điểm AP là khu vực dưới đường cong thu hồi chính xác.

Đây là một cuộc thảo luận với một số mã (Python)

Đây là một bài báo .

Cũng xem các đường cong Precision-Recall-Gain của Peter Flach , cùng với một cuộc thảo luận về sự thiếu hụt của các đường cong AP.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.