Câu trả lời:
Nếu bạn đang kiểm tra hiệu năng của một mô hình (nghĩa là không tối ưu hóa các tham số), thông thường bạn sẽ tổng hợp các ma trận nhầm lẫn. Hãy nghĩ về nó như thế này, bạn đã chia dữ liệu của mình thành 10 lần khác nhau hoặc 'bộ thử nghiệm'. Bạn huấn luyện mô hình của mình trên 9/10 lần và kiểm tra lần đầu tiên và nhận được ma trận nhầm lẫn. Ma trận nhầm lẫn này đại diện cho phân loại 1/10 của dữ liệu. Bạn lặp lại phân tích một lần nữa với bộ 'kiểm tra' tiếp theo và nhận được một ma trận nhầm lẫn khác đại diện cho 1/10 dữ liệu khác. Thêm ma trận nhầm lẫn mới này vào lần đầu tiên hiện chiếm 20% dữ liệu của bạn. Bạn tiếp tục cho đến khi bạn chạy tất cả các nếp gấp của mình, tổng hợp tất cả các ma trận nhầm lẫn của bạn và ma trận nhầm lẫn cuối cùng biểu thị hiệu suất của mô hình đó cho tất cả dữ liệu. Bạn có thể tính trung bình các ma trận nhầm lẫn nhưng điều đó không thực sự cung cấp bất kỳ thông tin bổ sung nào từ ma trận tích lũy và có thể bị sai lệch nếu các nếp gấp của bạn không cùng kích thước.
Lưu ý - điều này giả định việc lấy mẫu dữ liệu của bạn không lặp lại. Tôi không hoàn toàn chắc chắn nếu điều này sẽ khác đối với việc lấy mẫu lặp lại. Sẽ cập nhật nếu tôi học được điều gì đó hoặc ai đó đề xuất một phương pháp.