Một vài khả năng đến với tâm trí của tôi.
Nhìn vào tỷ lệ trúng tổng thể thường không phải là một ý tưởng hay vì nó sẽ phụ thuộc vào thành phần của tập kiểm tra nếu hiệu suất của các lớp khác nhau khác nhau. Vì vậy, ít nhất, bạn nên xác định (và biện minh) tần suất tương đối của các lớp trong dữ liệu thử nghiệm của mình để lấy ra một giá trị có ý nghĩa.
Thứ hai, như @Shorack đã nói, chỉ định loại lỗi nào là quan trọng. Thông thường, bộ phân loại cần phải đáp ứng các tiêu chí hiệu suất nhất định để có ích (và độ chính xác tổng thể hiếm khi là thước đo phù hợp). Có các biện pháp như độ nhạy, độ đặc hiệu, giá trị định kiến tích cực và tiêu cực có tính đến các lớp khác nhau và các loại phân loại sai khác nhau. Bạn có thể nói rằng các biện pháp này trả lời các câu hỏi khác nhau về phân loại:
- độ nhạy: Phần nào của các trường hợp thật sự thuộc về lớp C được công nhận như vậy?
- tính đặc hiệu: Phần nào của các trường hợp thật sự không thuộc lớp C được công nhận như vậy?
- giá trị tiên đoán dương: Với trình phân loại dự đoán lớp C, xác suất dự đoán này là chính xác là bao nhiêu?
- giá trị tiên đoán âm: Với trình phân loại dự đoán rằng trường hợp không phải là lớp C, xác suất dự đoán này là chính xác là bao nhiêu?
Những câu hỏi này thường cho phép xây dựng các thông số kỹ thuật mà bộ phân loại phải cần để có ích.
Các giá trị tiên đoán thường quan trọng hơn theo quan điểm của ứng dụng thực tế của phân loại: chúng dựa trên dự đoán, đó là tình huống bạn gặp phải khi áp dụng phân loại (một bệnh nhân thường không quan tâm đến việc có khả năng xét nghiệm là để nhận ra các trường hợp bệnh, nhưng khả năng chẩn đoán đã nêu là chính xác). Tuy nhiên, để tính toán chúng một cách chính xác, bạn cần biết tần số tương đối của các lớp khác nhau trong dân số, trình phân loại được sử dụng (dường như bạn có thông tin này - vì vậy không có gì khiến bạn không nhìn vào đó).
Bạn cũng có thể nhìn vào mức tăng thông tin mà một dự đoán tích cực hoặc tiêu cực mang lại cho bạn. Điều này được đo bằng tỷ lệ khả năng tích cực và tiêu cực, LR⁺ và LR⁻. Tóm lại, họ cho bạn biết mức độ dự đoán thay đổi tỷ lệ cược đối với lớp đang đề cập. (xem câu trả lời của tôi ở đây để được giải thích chi tiết hơn)
Đối với trình phân loại tầm thường của bạn, mọi thứ trông như thế này: Tôi sẽ sử dụng lớp "0" làm lớp được đề cập, vì vậy "tích cực" có nghĩa là lớp "0". Trong số 100 trường hợp, 100 trường hợp được dự đoán là dương tính (thuộc về lớp 0). 97 người trong số họ thực sự làm, 3 không. Độ nhạy đối với lớp 0 là 100% (tất cả 97 trường hợp thực sự thuộc về lớp 0 đã được công nhận), độ đặc hiệu là 0 (không có trường hợp nào khác được công nhận). giá trị dự báo dương (giả sử tần số tương đối 97: 3 là đại diện) là 97%, giá trị dự báo âm không thể được tính là không xảy ra dự đoán âm.
LR-=1-độ nhạyL R+= độ nhạy1 - tính đặc hiệu= 1
L R-= 1 - độ nhạytính đặc hiệu= 00
Bây giờ, LR⁺ và LR⁻ là các yếu tố mà bạn nhân tỷ lệ cược cho trường hợp thuộc về lớp dương ("0"). Có tỷ lệ 1 là 1 có nghĩa là dự đoán tích cực không cung cấp cho bạn bất kỳ thông tin nào: nó sẽ không thay đổi tỷ lệ cược. Vì vậy, ở đây bạn có một biện pháp thể hiện rõ ràng thực tế rằng phân loại tầm thường của bạn không thêm bất kỳ thông tin nào .
Hướng suy nghĩ hoàn toàn khác nhau: Bạn đề cập rằng bạn muốn đánh giá các phân loại khác nhau. Nghe có vẻ giống như phân loại so sánh hoặc lựa chọn. Nhắc nhở với các biện pháp tôi thảo luận ở trên là chúng có độ không chắc chắn ngẫu nhiên rất cao (có nghĩa là bạn cần rất nhiều trường hợp kiểm tra) nếu bạn đánh giá chúng trên nhãn lớp "cứng". Nếu dự đoán của bạn chủ yếu là liên tục (số liệu, ví dụ xác suất sau), bạn có thể sử dụng các biện pháp liên quan xem xét cùng loại câu hỏi nhưng không sử dụng phân số của các trường hợp nhưng các biện pháp liên tục, xem tại đây . Đây cũng sẽ phù hợp hơn để phát hiện sự khác biệt nhỏ trong dự đoán.
(@FrankHarrell sẽ cho bạn biết rằng bạn cần "quy tắc chấm điểm thích hợp", vì vậy đó là một thuật ngữ tìm kiếm khác cần ghi nhớ.)