Tôi không biết câu trả lời chuẩn cho vấn đề này, nhưng tôi đã nghĩ về nó một vài lần trước đây và tôi có một số ý tưởng để chia sẻ.
Khi bạn có một ma trận nhầm lẫn, bạn có ít nhiều một bức tranh về cách bạn phân loại mô hình nhầm lẫn (phân loại sai) các lớp. Khi bạn lặp lại các bài kiểm tra phân loại, bạn sẽ có nhiều ma trận nhầm lẫn. Câu hỏi là làm thế nào để có được một ma trận nhầm lẫn tổng hợp có ý nghĩa. Câu trả lời phụ thuộc vào ý nghĩa của ý nghĩa (ý định chơi chữ). Tôi nghĩ rằng không có một phiên bản duy nhất có ý nghĩa.
Một cách là làm theo ý tưởng sơ bộ của nhiều thử nghiệm. Nói chung, bạn kiểm tra một cái gì đó nhiều lần để có kết quả chính xác hơn. Theo nguyên tắc chung, người ta có thể lý giải rằng việc tính trung bình vào kết quả của nhiều thử nghiệm làm giảm phương sai của các ước tính, do đó, do đó, nó làm tăng độ chính xác của các ước tính. Tất nhiên, bạn có thể tiến hành theo cách này bằng cách tính tổng vị trí theo vị trí và sau đó chia cho số lượng bài kiểm tra. Bạn có thể đi xa hơn và thay vì chỉ ước tính một giá trị cho mỗi ô của ma trận nhầm lẫn, bạn cũng có thể tính toán một số khoảng tin cậy, giá trị t, v.v. Điều này là OK từ quan điểm của tôi. Nhưng nó chỉ nói lên một mặt của câu chuyện.
Mặt khác của câu chuyện có thể được điều tra là mức độ ổn định của các kết quả cho các trường hợp tương tự. Để làm gương rằng tôi sẽ lấy một ví dụ cực đoan. Giả sử bạn có một mô hình phân loại cho 3 lớp. Giả sử rằng các lớp này có cùng tỷ lệ. Nếu mô hình của bạn có thể dự đoán hoàn hảo một lớp và 2 lớp còn lại có hiệu suất như ngẫu nhiên, cuối cùng bạn sẽ có tỷ lệ phân loại sai 0,33 + 0,66 + 0,66 = 0,66. Điều này có vẻ tốt, nhưng ngay cả khi bạn nhìn vào một ma trận nhầm lẫn duy nhất, bạn sẽ không biết rằng hiệu suất của bạn trên 2 lớp cuối thay đổi dữ dội. Nhiều bài kiểm tra có thể giúp đỡ. Nhưng trung bình các ma trận nhầm lẫn sẽ tiết lộ điều này? Niềm tin của tôi là không. Tính trung bình sẽ cho cùng một kết quả ít nhiều và thực hiện nhiều thử nghiệm sẽ chỉ làm giảm phương sai của ước lượng.
Vì vậy, một cách khác để soạn thảo các ma trận nhầm lẫn sẽ tốt hơn liên quan đến mật độ dự đoán cho mỗi trường hợp. Người ta có thể xây dựng mật độ này bằng cách đếm cho từng trường hợp, số lần nó được dự đoán là một lớp nhất định. Sau khi chuẩn hóa, bạn sẽ có mật độ dự đoán cho mỗi trường hợp thay vì một nhãn dự đoán. Bạn có thể thấy rằng một nhãn dự đoán duy nhất tương tự với mật độ suy biến trong đó bạn có xác suất 1 cho lớp dự đoán và 0 cho các lớp khác cho mỗi trường hợp riêng biệt. Bây giờ có mật độ này, người ta có thể xây dựng một ma trận nhầm lẫn bằng cách thêm xác suất từ mỗi trường hợp và lớp dự đoán vào ô tương ứng của ma trận nhầm lẫn tổng hợp.
Người ta có thể lập luận rằng điều này sẽ cho kết quả tương tự như phương pháp trước đó. Tuy nhiên, tôi nghĩ rằng đôi khi đây có thể là trường hợp, thường khi mô hình có phương sai thấp, phương pháp thứ hai ít bị ảnh hưởng bởi cách các mẫu từ các thử nghiệm được rút ra, do đó ổn định hơn và gần với thực tế hơn.
Ngoài ra, phương thức thứ hai có thể được thay đổi để có được phương thức thứ ba, trong đó người ta có thể gán như dự đoán nhãn với mật độ cao nhất từ dự đoán của một thể hiện cụ thể.
Tôi không thực hiện những điều đó nhưng tôi dự định nghiên cứu thêm vì tôi tin rằng có thể đáng để dành thời gian.