Đo hiệu suất của các phân loại khác nhau với các cỡ mẫu khác nhau

12

Tôi hiện đang sử dụng một số trình phân loại khác nhau trên các thực thể khác nhau được trích xuất từ văn bản và sử dụng độ chính xác / gọi lại như một bản tóm tắt về mức độ mỗi phân loại riêng biệt thực hiện trên một tập dữ liệu nhất định.

Tôi tự hỏi liệu có một cách có ý nghĩa để so sánh hiệu suất của các phân loại này theo cách tương tự, nhưng cũng tính đến tổng số của từng thực thể trong dữ liệu thử nghiệm được phân loại?

Hiện tại, tôi đang sử dụng độ chính xác / thu hồi làm thước đo hiệu suất, vì vậy có thể có một cái gì đó như:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

Tuy nhiên, bộ dữ liệu tôi đang chạy trên có thể chứa 100 nghìn người, 5 nghìn công ty, 500 pho mát và 1 quả trứng.

Vì vậy, có một thống kê tóm tắt tôi có thể thêm vào bảng trên mà cũng tính đến tổng số của mỗi mục? Hoặc có cách nào đó để đo lường thực tế, ví dụ 100% trước / rec trên trình phân loại Egg có thể không có ý nghĩa chỉ với 1 mục dữ liệu?

Giả sử chúng ta có hàng trăm phân loại như vậy, tôi đoán tôi đang tìm kiếm một cách hay để trả lời các câu hỏi như "Phân loại nào đang hoạt động kém? Phân loại nào thiếu dữ liệu kiểm tra để biết liệu chúng có hoạt động kém không?".

classification performance

— Dave Challis
nguồn

Nếu bạn có các phân loại khác nhau được đào tạo trên các bộ dữ liệu khác nhau, làm thế nào bạn có thể so sánh chúng theo một cách có ý nghĩa? Táo và cam, phấn và pho mát đến với tâm trí. Ngoài ra, nếu bạn có phân loại đa lớp, làm thế nào để bạn tính toán độ chính xác và thu hồi? Ngay cả khi biết N = 1 không nhất thiết phải hữu ích - nếu chỉ có một quả trứng trên thế giới, bộ phân loại trứng của bạn vẫn ổn.

— Bull

Chúng là các phân loại khác nhau được đào tạo trên cùng một bộ dữ liệu, ví dụ: chúng tôi biết rằng chúng tôi có một tài liệu về táo và cam, vì vậy chúng tôi chạy một trình phân loại táo trên đó để xác định loại táo mà nó nói đến và một phân loại màu cam để xác định loại cam nó nói về. Nếu tài liệu của chúng tôi là 99% về táo, 1% về cam và cả hai phân loại đều có cùng pre / rec (tổng các hàng / cols trên ma trận nhầm lẫn), có bất kỳ thông tin nào chúng tôi có thể trình bày có tính đến sự khác biệt về số lượng của mỗi ? (có thể là không, không có, đó là câu trả lời tôi rất vui)

— Dave Challis

5

Bạn cần nhìn vào khoảng tin cậy của thống kê. Điều này giúp đo lường mức độ không chắc chắn trong thống kê, phần lớn là chức năng của cỡ mẫu.

— Christopher Lớn
nguồn

2

Theo tôi, thật khó để so sánh hiệu suất khi có sự khác biệt lớn về kích thước như vậy. Trên liên kết này, (vui lòng kiểm tra nó ở đây trong Wikipedia http://en.wikipedia.org/wiki/Effect_size ), bạn có thể thấy các chiến lược khác nhau.

Một trong những tôi đề nghị là một liên quan đến phương sai. Ví dụ, hãy xem xét hiệu suất của trình phân loại (100%) và trình phân loại người (65%). Lỗi tối thiểu bạn phạm phải với trình phân loại cũ là 100%. Tuy nhiên, lỗi tối thiểu bạn có thể cam kết với trình phân loại sau là 10e-5.

Vì vậy, một cách để so sánh trình phân loại là ghi nhớ Quy tắc ba ( http://en.wikipedia.org/wiki/Rule_of_three_(statistic) trong đó bạn có thể so sánh hiệu suất và tính biến đổi của nó.

Khả năng khác là F-đo là sự kết hợp giữa Chính xác và Thu hồi và bằng cách nào đó nó độc lập với kích thước hiệu ứng.

— adesantos
nguồn

2

Số lượng dữ liệu trong lớp đôi khi được gọi là supportphân loại. Nó cho biết mức độ bạn có thể tin tưởng vào kết quả của mình, như giá trị p sẽ cho phép bạn tin tưởng hoặc không tin tưởng một số thử nghiệm.

Một cách tiếp cận bạn có thể sử dụng là tính toán một số biện pháp hiệu suất phân loại, không chỉ độ chính xác và thu hồi mà còn cả tỷ lệ dương thực sự, tỷ lệ dương tính giả, độ đặc hiệu, độ nhạy, khả năng tích cực, khả năng tiêu cực, v.v. và xem liệu chúng có phù hợp với nhau không . Nếu một trong các biện pháp tối đa hóa (100%) và biện pháp kia thì không, theo kinh nghiệm của tôi, điều đó thường cho thấy có sự cố xảy ra (ví dụ: hỗ trợ kém, phân loại tầm thường, phân loại sai lệch, v.v.). Xem điều này cho một danh sách các biện pháp hiệu suất phân loại.

— damienfrancois
nguồn