Tôi có một bộ dữ liệu của một túi từ. Tôi chọn ngẫu nhiên một số điểm và sử dụng chúng để kiểm tra và những điểm khác được sử dụng cho đào tạo.
- trường hợp (1) Tôi chỉ lấy mỗi điểm dữ liệu từ tập kiểm tra và phân loại nó có cùng nhãn lớp với điểm gần nhất từ tập tàu.
- trường hợp (2) Tôi thực hiện phân loại bằng cách sử dụng bất kỳ phân loại được giám sát đã biết.
Tôi luôn nhận được tỷ lệ nhận dạng tốt hơn trong trường hợp (1). Đó là, không thực hiện bất kỳ học tập nào, tốt hơn là sử dụng bất kỳ học tập có giám sát nào, cho tập dữ liệu này (và những người khác)! Đó có phải là một tình huống thường xuyên?