k-nghĩa là không quan tâm đến hồng y cụm
Bạn đang hiểu nhầm tuyên bố chung rằng các cụm k-nghĩa là "có xu hướng có cùng kích thước" (trong đó kích thước đề cập đến khu vực, không phải là cardinality ). Điều này đúng ở một mức độ nào đó, bởi vì k-mean luôn phân chia dữ liệu trên trực giao giữa của hai cụm. Điều này mang lại sự phân chia xấp xỉ không gian dữ liệu (ít nhất là nếu chúng ta bỏ qua không gian trống vô hạn bên ngoài dữ liệu của bạn - điều này không nghiêm ngặt về mặt toán học).
Tuy nhiên, nếu bạn có mật độ khác nhau trong tập dữ liệu của mình (và tại sao bạn sẽ sử dụng phân cụm nếu bạn không có) thì hai cụm của cùng một khu vực không phải có cùng số lượng phần tử .
Thuật toán duy nhất mà tôi biết cố gắng đảm bảo cùng một số lượng chính là hướng dẫn thuật toán cùng kích thước-kmeans này .