Mục tiêu của K-Means là giảm phương sai trong cụm và vì nó tính toán trọng tâm là điểm trung bình của cụm, nên cần phải sử dụng khoảng cách Euclide để hội tụ đúng. Do đó, nếu bạn muốn hoàn toàn sử dụng K-Means, bạn cần đảm bảo dữ liệu của bạn hoạt động tốt với nó.
Đại diện
K-Means và phân cụm nói chung, cố gắng phân vùng dữ liệu trong các nhóm có ý nghĩa bằng cách đảm bảo rằng các phiên bản trong cùng một cụm tương tự nhau. Do đó, bạn cần một cách tốt để thể hiện dữ liệu của mình để có thể dễ dàng tính toán một phép đo tương tự có ý nghĩa.
Sử dụng mã hóa một nóng trên các biến phân loại là một ý tưởng tốt khi các danh mục tương đương với nhau. Chẳng hạn, nếu bạn có màu xanh lam nhạt, xanh đậm và vàng, sử dụng mã hóa một nóng có thể không mang lại cho bạn kết quả tốt nhất, vì màu xanh đậm và xanh nhạt có khả năng "gần nhau" hơn so với màu vàng.
Trong trường hợp giá trị phân loại không "tương đương" và có thể được đặt hàng, bạn cũng có thể cung cấp cho các danh mục một giá trị số. Ví dụ, trẻ em, thiếu niên, người lớn, có khả năng có thể được đại diện là 0, 1 và 2. Điều này sẽ có ý nghĩa bởi vì một thiếu niên "gần gũi" với trẻ hơn là người lớn.
K-Medoids
Một cách tiếp cận chung hơn đối với K-Means là K-Medoids. K-Medoids hoạt động tương tự như K-Means, nhưng điểm khác biệt chính là trọng tâm cho mỗi cụm được xác định là điểm làm giảm tổng khoảng cách trong cụm. Thực thi điều này cho phép bạn sử dụng bất kỳ thước đo khoảng cách nào bạn muốn, và do đó, bạn có thể xây dựng thước đo tùy chỉnh của riêng mình, điều này sẽ tính đến những danh mục nào nên đóng hoặc không.