Điều chỉnh tham số KNN với xác nhận chéo: hòa điểm


7

Tôi đang cố gắng sử dụng phương pháp KNN để phân loại nhị phân. Khi cố gắng tìm tham số 'k' tốt nhất (số lượng lân cận mà thuật toán nhìn vào), tôi huấn luyện một mô hình trên tập huấn luyện của mình và xem xét độ chính xác của nó trên tập xác thực riêng biệt mà tôi có với dữ liệu của mình. Bộ xác nhận này chỉ có 12 mẫu, điều này gây ra độ chính xác cho 3 k's (1,3,5).

Bây giờ tôi đang tìm cách chọn một trong 3 k này cho mô hình dứt khoát. Tôi đã có cách tiếp cận sau đây: trong 3 k, tôi thực hiện xác nhận chéo K-Fold cho một K nhất định trên tập huấn luyện và sau đó xem cái nào có độ chính xác trung bình tốt nhất ở đây. Đây có phải là một cách tiếp cận tốt, hoặc có những lựa chọn tốt hơn? Tôi cũng đã nghĩ đến việc chỉ chọn một k ngẫu nhiên (1, 3 hoặc 5), bởi vì 'thủ tục xác nhận' cho tôi biết rằng tôi có thể chọn bất kỳ trong số 3.

Câu trả lời:


7

Vấn đề này xảy ra khi bạn có một bộ kiểm tra nhỏ, có thể khiến nhiều mô hình liên kết , bằng cách đạt được cùng một số dự đoán chính xác.

Phương pháp bạn nói trước nên làm. Bởi vì trong CV, mỗi mô hình nhìn thấy từng mẫu đào tạo một lần, tôi cho rằng 3 mô hình của bạn không có độ chính xác như nhau. Nếu điều này vẫn tồn tại, bạn có thể chọn ngẫu nhiên một cách an toàn (tôi sẽ chọn 3 vì đây là yếu tố chính)


1

Nguyên tắc của Occam gợi ý rằng bạn nên chọn kiểu máy đơn giản nhất có thể. Vì vậy, bạn nên đi cho cái đó. Nhưng để hiểu rõ hơn về khái quát hóa của mô hình, tôi sẽ đề nghị bạn sử dụng xác nhận chéo lồng nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.