Tôi đang cố gắng sử dụng phương pháp KNN để phân loại nhị phân. Khi cố gắng tìm tham số 'k' tốt nhất (số lượng lân cận mà thuật toán nhìn vào), tôi huấn luyện một mô hình trên tập huấn luyện của mình và xem xét độ chính xác của nó trên tập xác thực riêng biệt mà tôi có với dữ liệu của mình. Bộ xác nhận này chỉ có 12 mẫu, điều này gây ra độ chính xác cho 3 k's (1,3,5).
Bây giờ tôi đang tìm cách chọn một trong 3 k này cho mô hình dứt khoát. Tôi đã có cách tiếp cận sau đây: trong 3 k, tôi thực hiện xác nhận chéo K-Fold cho một K nhất định trên tập huấn luyện và sau đó xem cái nào có độ chính xác trung bình tốt nhất ở đây. Đây có phải là một cách tiếp cận tốt, hoặc có những lựa chọn tốt hơn? Tôi cũng đã nghĩ đến việc chỉ chọn một k ngẫu nhiên (1, 3 hoặc 5), bởi vì 'thủ tục xác nhận' cho tôi biết rằng tôi có thể chọn bất kỳ trong số 3.