Chọn K tối ưu cho KNN


15

Tôi đã thực hiện CV gấp 5 lần để chọn K tối ưu cho KNN. Và có vẻ như K càng lớn, lỗi càng nhỏ ...

nhập mô tả hình ảnh ở đây

Xin lỗi tôi không có một huyền thoại, nhưng các màu sắc khác nhau đại diện cho các thử nghiệm khác nhau. Có tổng cộng 5 và dường như có rất ít biến thể giữa chúng. Lỗi dường như luôn giảm khi K lớn hơn. Vậy làm thế nào tôi có thể chọn K tốt nhất? K = 3 có phải là một lựa chọn tốt ở đây không vì loại biểu đồ tắt sau K = 3?


Bạn sẽ làm gì với các cụm sau khi bạn tìm thấy chúng? Cuối cùng, đó là những gì bạn sẽ làm với các cụm được tạo bởi thuật toán phân cụm của bạn sẽ giúp xác định xem việc sử dụng nhiều cụm để nhận một lỗi nhỏ có đáng hay không.
Brian Borchers

Tôi muốn sức mạnh dự đoán cao. Trong trường hợp này ... tôi có nên đi với K = 20 không? Vì nó có lỗi thấp nhất. Tuy nhiên, tôi thực sự đã âm mưu các lỗi cho K lên tới 100. Và 100 có lỗi thấp nhất trong tất cả ... vì vậy tôi nghi ngờ rằng lỗi sẽ giảm khi K tăng. Nhưng tôi không biết đâu là điểm tốt.
Adrian

Câu trả lời:


12

Nếu bạn tiếp tục, cuối cùng bạn sẽ gặp lỗi CV bắt đầu tăng trở lại. Điều này là do bạn tạo càng lớn , diễn ra càng mịn và cuối cùng bạn sẽ làm mịn đến mức bạn sẽ có được một mô hình phù hợp với dữ liệu thay vì khớp quá mức (làm cho k đủ lớn và đầu ra sẽ không đổi bất kể các giá trị thuộc tính). Tôi sẽ mở rộng cốt truyện cho đến khi lỗi CV bắt đầu tăng trở lại đáng chú ý, chỉ để chắc chắn, và sau đó chọn k giảm thiểu lỗi CV. Bạn càng làm cho k càng lớn thì ranh giới quyết định càng đơn giản và mô hình càng đơn giản, vì vậy nếu chi phí tính toán không phải là vấn đề, tôi sẽ chọn giá trị k lớn hơnkkkkk hơn một cái nhỏ hơn, nếu sự khác biệt trong lỗi CV của họ là không đáng kể.

Nếu lỗi CV không bắt đầu tăng trở lại, điều đó có thể có nghĩa là các thuộc tính không mang tính thông tin (ít nhất là cho số liệu khoảng cách đó) và đưa ra kết quả đầu ra không đổi là điều tốt nhất có thể làm.



0

Có bất kỳ ý nghĩa vật lý hoặc tự nhiên đằng sau số lượng cụm? Nếu tôi không sai, chỉ có điều tự nhiên là khi K tăng, lỗi sẽ giảm - giống như quá mức. Thay vì câu cá cho K tối ưu, có lẽ tốt hơn để chọn K dựa trên kiến ​​thức tên miền hoặc một số trực giác?


Tôi nghĩ rằng câu trả lời này sẽ phù hợp hơn cho phân cụm k-nghĩa hơn là phân loại hoặc hồi quy k-nn.
Dikran Marsupial

Nếu k quá lớn, bạn đang lắp nó thì lỗi sẽ tăng trở lại.
James
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.