Ý tưởng làm nền tảng cho thuật toán k-mean là cố gắng tìm các cụm làm giảm thiểu phương sai trong cụm (hoặc lên đến một hằng số tổng bình phương hoặc SS tương ứng), tương đương với tối đa SS giữa cụm vì tổng phương sai là đã sửa. Như đã đề cập trên wiki, bạn có thể trực tiếp sử dụng SS bên trong và xem xét biến thể của nó khi tăng số lượng cụm (giống như chúng ta sẽ làm trong Phân tích nhân tố với screeplot): một sự thay đổi đột ngột trong cách SS phát triển là gợi ý của một giải pháp tối ưu , mặc dù điều này chỉ đơn thuần đứng từ đánh giá cao hình ảnh. Khi tổng phương sai được cố định, nó tương đương với việc nghiên cứu tỷ lệ giữa và tổng SS, còn được gọi là tỷ lệ phần trăm phương sai được giải thích, bởi vì trong trường hợp này, nó sẽ xuất hiện một khoảng cách lớn từ một k đến k tiếp theo +1.
Tóm lại, bạn chỉ cần tính khoảng cách bình phương giữa mỗi điểm dữ liệu và trung tâm tương ứng của chúng (hoặc centroid), cho mỗi cụm - điều này mang lại cho bạn trong SS và tổng trong SS chỉ là tổng của cụ thể của cụm WSS (biến chúng thành phương sai chỉ là vấn đề chia cho các mức độ tự do tương ứng); giữa SS có được bằng cách trừ tổng WSS từ tổng SS, cái sau được lấy bằng cách xem xét k = 1 chẳng hạn.
Nhân tiện, với k = 1, WSS = TSS và BSS = 0.
Nếu bạn sau khi xác định số lượng cụm hoặc nơi dừng với phương tiện k, bạn có thể coi thống kê Gap là một thay thế cho tiêu chí khuỷu tay:
Tibshirani, R., Walther, G. và Hastie, T. (2001). Ước tính số lượng cụm trong một tập dữ liệu thông qua thống kê khoảng cách . Thống kê JR. Sóc. B , 63 (2): 411-423.