Cho phép tôi, không cần đi xa, chỉ cần sao chép-dán danh sách các tùy chọn từ chức năng của riêng tôi !kmini
(một macro cho SPSS), được tìm thấy trong bộ sưu tập "Phân cụm" tại đây .
Phương pháp để tạo hoặc chọn trung tâm cụm ban đầu. Chọn:
- RGC - centroid của các mẫu phụ ngẫu nhiên . Dữ liệu được phân vùng ngẫu nhiên bằng cách
k
không chồng lấp, theo tư cách thành viên, nhóm và centroid của các nhóm này được chỉ định làm trung tâm ban đầu. Do đó, các trung tâm được tính toán, không được chọn từ các trường hợp dữ liệu tồn tại. Phương pháp này mang lại các trung tâm nằm gần nhau và trung tâm chung của dữ liệu.
- RP - điểm được chọn ngẫu nhiên .
k
các trường hợp riêng biệt của dữ liệu được chọn ngẫu nhiên làm trung tâm ban đầu.
- RUNFP -
điểm xa nhất (chạy lựa chọn). Các
k
trường hợp đầu tiên được lấy làm trung tâm và sau đó trong suốt thời gian còn lại của các trường hợp của bộ dữ liệu, việc thay thế dần dần giữa các trung tâm được thực hiện; Mục đích của các thay thế là để đạt được các k
điểm cuối cách xa nhau nhất trong không gian biến. Những điểm (trường hợp) chiếm vị trí ngoại vi trong đám mây dữ liệu là các trung tâm ban đầu được tạo ra. (Phương thức được sử dụng làm mặc định trong thủ tục k-mean SPSS QUICK CLUSTER
. Xem chi tiết trong Thuật toán SPSS. Xem thêm mô tả tại đây ).
- SIMFP - điểm xa nhất (lựa chọn đơn giản). Trung tâm đầu tiên được chọn là trường hợp ngẫu nhiên từ bộ dữ liệu. Trung tâm thứ 2 được chọn là trường hợp cách xa tối đa từ trung tâm đó. Trung tâm thứ 3 được chọn là trường hợp cách xa tối đa so với hai trường hợp đó (từ vị trí gần nhất trong hai), v.v.
- KMPP - điểm xa nhất ngẫu nhiên, hoặc k-nghĩa là ++. Trung tâm đầu tiên được chọn là trường hợp ngẫu nhiên từ bộ dữ liệu. Trung tâm thứ 2 cũng được chọn ngẫu nhiên, nhưng xác suất lựa chọn trường hợp tỷ lệ thuận với khoảng cách (euclide vuông) của nó với trung tâm (thứ 1) đó. Trung tâm thứ 3 cũng được chọn ngẫu nhiên với xác suất lựa chọn tỷ lệ thuận với khoảng cách của một trường hợp đến gần nhất của hai trung tâm đó, v.v. (Arthur, D., Vassilvitskii, S .. K-nghĩa là ++: những lợi thế của việc gieo hạt cẩn thận. // Kỷ yếu của hội nghị chuyên đề ACM-SIAM hàng năm lần thứ 18 về thuật toán rời rạc. 2007, 1027 ném1035.)
- GREP - điểm đại diện nhóm . Ý tưởng phương pháp - để thu thập làm trung tâm
k
đại diện nhất, trường hợp phó phó Trung tâm thứ 1 được lấy làm trường hợp gần nhất với cenroid dữ liệu chung. Sau đó, các trung tâm còn lại được chọn từ các điểm dữ liệu theo cách mà mỗi điểm được xem là có gần hơn không (và bao nhiêu, tính theo khoảng cách euclide bình phương) đến một tập hợp các điểm so với từng điểm sau là cho bất kỳ trung tâm đã có sẵn. Tức là mỗi điểm được kiểm tra như một ứng cử viên để đại diện cho một số nhóm điểm chưa đủ đại diện bởi các trung tâm đã được thu thập. Điểm đại diện nhất trong khía cạnh này được chọn là trung tâm tiếp theo. (Kaufman, L. Rousseeuw, PJ Tìm các nhóm trong dữ liệu: giới thiệu về phân tích cụm., 1990. Xem thêm: Pena, JM và cộng sự Một so sánh thực nghiệm về bốn phương pháp khởi tạo cho thuật toán K-mean // Nhận dạng mẫu Lett. 20 (10), 1999,
- [Ngoài ra còn có một phương pháp hay, chưa được tôi triển khai trong macro, để tạo
k
các điểm từ thống nhất ngẫu nhiên nhưng "ít ngẫu nhiên hơn ngẫu nhiên", ở đâu đó giữa ngẫu nhiên và tham lam; xem cơ sở lý thuyết tiềm năng cho phương pháp đó]
- Một phương pháp nữa là thực hiện phân cụm theo phân cấp theo phương pháp của Ward. Bạn có thể làm điều đó trên mẫu phụ của các đối tượng nếu mẫu quá lớn. Sau đó, phương tiện của các
k
cụm được tạo ra bởi nó là các hạt giống ban đầu cho thủ tục k-mean. Ward thích hợp hơn các phương pháp phân cụm phân cấp khác vì nó chia sẻ mục tiêu mục tiêu chung với phương tiện k.
Các phương thức RGC, RP, SIMFP, KMPP phụ thuộc vào các số ngẫu nhiên và có thể thay đổi kết quả của chúng từ chạy sang chạy.
Phương pháp RUNFP có thể nhạy cảm với thứ tự trường hợp trong bộ dữ liệu; nhưng phương thức GREP thì không (ngoài các trường hợp khi có nhiều trường hợp, quan hệ giống hệt nhau, trong dữ liệu). Phương pháp GREP có thể không thu thập được tất cả các k
trung tâm nếu k
số lượng lớn các trường hợp trong dữ liệu ( n
), đặc biệt là khi k>n/2
. [Macro sẽ thông báo nếu dữ liệu không cho phép phương thức đó thu thập k
trung tâm]. Phương pháp GREP là phương pháp chậm nhất, nó tính toán ma trận khoảng cách giữa tất cả các trường hợp, do đó nó sẽ không phù hợp nếu có nhiều hàng chục nghìn hoặc hàng triệu trường hợp. Tuy nhiên, bạn có thể làm điều đó trên một mẫu con ngẫu nhiên của dữ liệu.
Hiện tại tôi không thảo luận về phương pháp nào là "tốt hơn" và trong hoàn cảnh nào, bởi vì tôi chưa thực hiện việc thăm dò mô phỏng rộng rãi cho câu hỏi cho đến nay. Ấn tượng rất sơ bộ và hời hợt của tôi là GREP đặc biệt xứng đáng (nhưng nó đắt tiền) và nếu bạn muốn phương pháp thực sự rẻ vẫn đủ sức cạnh tranh, thì chỉ cần k điểm ngẫu nhiên, RP, là một lựa chọn hợp lý.