Như một suy nghĩ đầu tiên, điều này có nghĩa là ít nhất tập huấn luyện của bạn không đại diện cho dữ liệu ứng dụng. Liệu bộ kiểm tra có đại diện hay không là một câu hỏi mà bạn nên IMHO suy nghĩ rất kỹ. Trong bối cảnh này, điều quan trọng là phải tìm hiểu xem các lớp bị thiếu này có phải là vấn đề của tập huấn cụ thể quá nhỏ hay không, hay đây là một đặc điểm chung của vấn đề / nhiệm vụ / ứng dụng. Tức là, cho dù các lớp mới chưa từng gặp phải trước đây sẽ xuất hiện mọi lúc.
Về nguyên tắc, tôi thấy hai khả năng xử lý tình huống này:
Nói rằng tập huấn chắc chắn không đại diện và yêu cầu thêm dữ liệu, đặc biệt là dữ liệu của các lớp bị thiếu. Điều này có ý nghĩa trong trường hợp bạn đi đến kết luận rằng vấn đề nằm ở tập huấn luyện cụ thể, không phải với các đặc điểm chung của ứng dụng.
Trong mọi trường hợp, biết rằng dữ liệu đào tạo bỏ lỡ các lớp, tôi sẽ xem xét sử dụng một lớp phân loại một lớp. Tức là một trình phân loại xử lý từng lớp độc lập với bất kỳ lớp nào khác có thể. Lý tưởng nhất, một trình phân loại một lớp sẽ trả về "lớp không xác định" cho các trường hợp kiểm tra của các lớp chưa có sẵn để đào tạo. Đối với các trình phân loại một lớp, việc kiểm tra "từ chối" các trường hợp thuộc về các lớp thực sự chưa biết thực sự có ý nghĩa.
chỉnh sửa bình luận của wrt @ gung: Tôi cho rằng việc phân chia kiểm tra / thử nghiệm được khắc phục vì một số lý do hy vọng tốt .