Nếu bạn chia ngẫu nhiên mẫu thành 5 mẫu phụ, 5 phương tiện của bạn sẽ gần như trùng khớp. Ý nghĩa của việc làm cho các điểm gần như vậy các trung tâm cụm ban đầu là gì?
Trong nhiều triển khai K-mean, việc lựa chọn mặc định các trung tâm cụm ban đầu dựa trên ý tưởng ngược lại: tìm 5 điểm cách xa nhau nhất và biến chúng thành trung tâm ban đầu. Bạn có thể hỏi những gì có thể là cách để tìm những điểm xa nhau? Đây là những gì K-mean của SPSS đang làm cho điều đó:
Lấy bất kỳ trường hợp k (điểm) nào của bộ dữ liệu làm trung tâm ban đầu. Tất cả các trường hợp còn lại đang được kiểm tra khả năng thay thế những trường hợp như các trung tâm ban đầu, theo các điều kiện sau:
- a) Nếu trường hợp ở xa trung tâm gần nó hơn khoảng cách giữa hai gần nhất với nhau, thì trường hợp đó thay thế trung tâm của hai trung tâm gần hơn.
- b) Nếu trường hợp cách xa trung tâm thứ 2 gần nó nhất so với khoảng cách giữa trung tâm gần nó nhất và trung tâm gần nhất với trung tâm này, thì trường hợp thay thế trung tâm gần nó nhất.
Nếu điều kiện (a) không thỏa mãn, điều kiện (b) được kiểm tra; nếu nó không được thỏa mãn thì trường hợp đó không trở thành một trung tâm. Do kết quả của các trường hợp như vậy, chúng tôi thu được k trường hợp tối đa trong đám mây trở thành trung tâm ban đầu. Kết quả của thuật toán này, mặc dù đủ mạnh, nhưng không hoàn toàn không nhạy cảm với lựa chọn bắt đầu của "bất kỳ trường hợp k " nào và theo thứ tự sắp xếp các trường hợp trong tập dữ liệu; vì vậy, một số nỗ lực bắt đầu ngẫu nhiên vẫn được chào đón, vì nó luôn luôn như vậy với K-mean.
Xem câu trả lời của tôi với một danh sách các phương thức khởi tạo phổ biến cho phương tiện k. Phương pháp phân tách thành các mẫu con ngẫu nhiên (được tôi và những người khác chia sẻ ở đây) cũng như phương pháp được mô tả được sử dụng bởi SPSS - cũng nằm trong danh sách.