Phân loại đo lường hiệu suất kết hợp độ nhạy và độ đặc hiệu?


9

Tôi có 2 lớp dữ liệu được dán nhãn mà tôi đang thực hiện phân loại bằng nhiều phân loại. Và các bộ dữ liệu được cân bằng tốt. Khi đánh giá hiệu suất của bộ phân loại, tôi cần xem xét mức độ chính xác của bộ phân loại trong việc xác định không chỉ các mặt tích cực thực sự, mà cả các tiêu cực thực sự. Do đó, nếu tôi sử dụng độ chính xác và nếu trình phân loại thiên về hướng tích cực và phân loại mọi thứ là tích cực, tôi sẽ nhận được độ chính xác khoảng 50%, mặc dù nó không thể phân loại bất kỳ tiêu cực thực sự nào. Thuộc tính này được mở rộng đến độ chính xác và thu hồi khi chúng chỉ tập trung vào một lớp và lần lượt đạt điểm F1. (Đây là những gì tôi hiểu ngay cả từ bài viết này, ví dụ " Vượt xa Độ chính xác, Điểm F và ROC: Gia đình của các biện pháp phân biệt đối xử để đánh giá hiệu suất ").

Do đó, tôi có thể sử dụng độ nhạy và độ đặc hiệu (TPR và TNR) để xem cách trình phân loại thực hiện cho từng lớp, nơi tôi nhắm đến để tối đa hóa các giá trị này.

Câu hỏi của tôi là tôi đang tìm kiếm một biện pháp kết hợp cả hai giá trị này thành một biện pháp có ý nghĩa . Tôi đã xem xét các biện pháp được cung cấp trong bài báo đó, nhưng tôi thấy nó không tầm thường. Và dựa trên sự hiểu biết của tôi, tôi đã tự hỏi tại sao chúng ta không thể áp dụng một cái gì đó như điểm F, nhưng thay vì sử dụng độ chính xác và thu hồi, tôi sẽ sử dụng độ nhạy và độ đặc hiệu? Vì vậy, công thức sẽ là và mục tiêu của tôi sẽ là tối đa hóa biện pháp này. Tôi thấy nó rất tiêu biểu. Có một công thức tương tự đã? Và điều này sẽ có ý nghĩa hay thậm chí là âm thanh toán học?

my Performance Measure=2sensitivityspecificitysensitivity+specificity

Câu trả lời:


1

Tôi sẽ nói rằng có thể không có bất kỳ biện pháp cụ thể hoặc chỉ một biện pháp nào mà bạn nên tính đến.

Lần trước khi tôi thực hiện phân loại xác suất, tôi đã có ROCR gói R và các giá trị chi phí rõ ràng cho các Vị trí sai và Âm tính giả.

Tôi đã xem xét tất cả các điểm cắt từ 0 đến 1 và đã sử dụng nhiều biện pháp như chi phí dự kiến ​​khi chọn điểm cắt này. Tất nhiên tôi đã có thước đo AUC cho thước đo chung về phân loại độ chính xác. Nhưng đối với tôi đây không phải là khả năng duy nhất.

Các giá trị cho các trường hợp FP và FN phải nằm ngoài mô hình cụ thể của bạn, có thể những giá trị này được cung cấp bởi một số chuyên gia về chủ đề?

Ví dụ, trong phân tích khách hàng, có thể tốn kém hơn khi suy luận không chính xác rằng khách hàng không bị đảo lộn nhưng cũng sẽ tốn kém khi giảm giá chung cho các dịch vụ mà không nhắm mục tiêu các nhóm này vào các nhóm chính xác.

-Phân tích


Trên thực tế đối với trường hợp của tôi, nó là loại tương tự. Bởi vì các trường hợp FP và FN sẽ tốn kém trong mô hình của tôi. Cuối cùng tôi đã làm một cái gì đó tương tự như những gì bạn đề nghị "sử dụng nhiều biện pháp". Tôi đã tính điểm F cho từng nhãn lớp và để đánh giá các mô hình tôi sử dụng cả hai giá trị này cùng với một số hàm chi phí sử dụng độ chính xác (cho cả hai lớp) để tính lợi nhuận và trừ đi tổn thất phát sinh từ các trường hợp FP và FN.
Kalaji

3

Phân loại độ chính xác, độ nhạy, độ đặc hiệu và bất kỳ sự kết hợp đơn giản nào của chúng đều là các quy tắc chấm điểm không phù hợp. Đó là, chúng được tối ưu hóa bởi một mô hình không có thật. Sử dụng chúng sẽ khiến bạn chọn các tính năng sai, đưa ra các trọng số sai và đưa ra các quyết định dưới mức tối ưu. Một trong nhiều cách quyết định là tối ưu là sự tin cậy sai lầm mà bạn có được khi xác suất dự đoán gần ngưỡng được ngụ ý khi sử dụng các biện pháp này. Nói tóm lại, mọi thứ có thể sai đều đi sai với các biện pháp này. Sử dụng chúng để so sánh ngay cả hai mô hình được trang bị tốt sẽ đánh lừa bạn.


1
Tôi đồng ý rằng bất kỳ mô hình được tạo nào là "mô hình không có thật" như bạn đã đề cập. Nhưng tôi vẫn cần một thước đo để đánh giá chất lượng của nó, để chọn một mô hình cuối cùng. Giả sử rằng các tính năng của tôi đã được chọn (thử nhiều bộ dữ liệu với các bộ tính năng khác nhau) và tôi đang sử dụng xác thực chéo 5 lần để xác định xem các trình phân loại của tôi có đang vượt quá dữ liệu hay không, "quy tắc chấm điểm" đơn giản này là nhất sử dụng rộng rãi trong văn học. Những biện pháp khác bạn sẽ đề nghị sau đó? Hầu hết các biện pháp dựa vào sự kết hợp của các giá trị này bao gồm cả LR +/-, ROC và AUC.
Kalaji

Trước hết bạn có cẩn thận lặp lại tất cả các bước khám phá / mô hình hóa từ đầu cho mỗi trong số 5 mô hình phù hợp được sử dụng trong cv 5 lần không? Thước đo chất lượng tiêu chuẩn vàng là khả năng và số lượng nhật ký có được từ nó như và độ lệch. Đối với nhị phân điều này dẫn đến quy tắc chấm điểm xác suất logarit. Trong trường hợp đó, bạn cũng có thể sử dụng một điểm thích hợp khác, điểm Brier (có nghĩa là lỗi bình phương trong xác suất dự đoán). R2Y
Frank Harrell

Dựa trên cách đọc của tôi, điều này áp dụng trong trường hợp các mô hình của tôi tạo ra xác suất thay vì các giá trị rời rạc (nghĩa là xác suất một thể hiện thuộc về lớp 0 hoặc 1 thay vì xuất ra 0 hoặc 1). Và đến lượt mình, điều này phải thực hiện với việc triển khai các trình phân loại, ví dụ, nó áp dụng cho trình phân loại Naive Bayes nhưng không áp dụng cho trình phân loại 1-NN. Lưu ý rằng tôi không triển khai các trình phân loại, tôi đang sử dụng một số trình phân loại trong Weka để tạo các mô hình của mình. Có lẽ tôi hơi bối rối ở đây. Cảm ơn.
Kalaji

1
Nếu phương pháp bạn đang sử dụng không mang lại xác suất, tôi khuyên bạn nên tìm phương pháp khác.
Frank Harrell

Nếu có sự chênh lệch được hiểu rõ giữa chi phí chính xác và độ nhạy thực tế (không áp dụng cho bài gốc), tại sao bạn lại tránh sử dụng chúng? Liệu một lỗi chéo entropy sai lệch có thể được ưu tiên hơn (ví dụ: hình phạt của thuật ngữ (1-c) * log (1-p) được nhân đôi)?
Max Candocia
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.