Một cách là kiểm tra thủ công các thành viên trong cụm của bạn để tìm một k cụ thể để xem các nhóm có hợp lý không (chúng có thể phân biệt được không?). Điều này có thể được thực hiện thông qua các bảng dự phòng và phương tiện có điều kiện. Làm điều này cho nhiều loại k và bạn có thể xác định giá trị nào là phù hợp.
Một cách ít chủ quan hơn là sử dụng Giá trị Silhouette:
/programming/18285434/how-do-i-choose-k-when-USE-k-means-clustering-with-sil Silhouette-feft
Điều này có thể được tính toán với gói phần mềm yêu thích của bạn. Từ liên kết:
Phương pháp này chỉ so sánh sự tương đồng giữa các nhóm với sự tương tự nhóm gần nhất. Nếu bất kỳ khoảng cách trung bình thành viên dữ liệu nào với các thành viên khác trong cùng cụm cao hơn khoảng cách trung bình với một số thành viên cụm khác, thì giá trị này là âm và phân cụm không thành công. Mặt khác, các giá trị silhuette gần bằng 1 biểu thị hoạt động phân cụm thành công. 0,5 không phải là một biện pháp chính xác để phân cụm.