Tôi hiện đang sử dụng một số trình phân loại khác nhau trên các thực thể khác nhau được trích xuất từ văn bản và sử dụng độ chính xác / gọi lại như một bản tóm tắt về mức độ mỗi phân loại riêng biệt thực hiện trên một tập dữ liệu nhất định.
Tôi tự hỏi liệu có một cách có ý nghĩa để so sánh hiệu suất của các phân loại này theo cách tương tự, nhưng cũng tính đến tổng số của từng thực thể trong dữ liệu thử nghiệm được phân loại?
Hiện tại, tôi đang sử dụng độ chính xác / thu hồi làm thước đo hiệu suất, vì vậy có thể có một cái gì đó như:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Tuy nhiên, bộ dữ liệu tôi đang chạy trên có thể chứa 100 nghìn người, 5 nghìn công ty, 500 pho mát và 1 quả trứng.
Vì vậy, có một thống kê tóm tắt tôi có thể thêm vào bảng trên mà cũng tính đến tổng số của mỗi mục? Hoặc có cách nào đó để đo lường thực tế, ví dụ 100% trước / rec trên trình phân loại Egg có thể không có ý nghĩa chỉ với 1 mục dữ liệu?
Giả sử chúng ta có hàng trăm phân loại như vậy, tôi đoán tôi đang tìm kiếm một cách hay để trả lời các câu hỏi như "Phân loại nào đang hoạt động kém? Phân loại nào thiếu dữ liệu kiểm tra để biết liệu chúng có hoạt động kém không?".