Các phương thức khởi tạo K-nghĩa là phân cụm


10

Tôi quan tâm đến tình trạng hiện tại của nghệ thuật để chọn hạt giống ban đầu (trung tâm cụm) cho phương tiện K.

Googling dẫn đến hai lựa chọn phổ biến:

  1. lựa chọn ngẫu nhiên các hạt giống ban đầu, và,
  2. sử dụng kỹ thuật lựa chọn KMeans ++: Arthur & Vassilvitskii 2006 k-nghĩa ++: Ưu điểm của việc gieo hạt cẩn thận

Có bất kỳ phương pháp hứa hẹn nào khác mà bất cứ ai ở đây nhận thức được, có thể không phổ biến?

Câu trả lời:


11

Cho phép tôi, không cần đi xa, chỉ cần sao chép-dán danh sách các tùy chọn từ chức năng của riêng tôi !kmini(một macro cho SPSS), được tìm thấy trong bộ sưu tập "Phân cụm" tại đây .

Phương pháp để tạo hoặc chọn trung tâm cụm ban đầu. Chọn:

  • RGC - centroid của các mẫu phụ ngẫu nhiên . Dữ liệu được phân vùng ngẫu nhiên bằng cách kkhông chồng lấp, theo tư cách thành viên, nhóm và centroid của các nhóm này được chỉ định làm trung tâm ban đầu. Do đó, các trung tâm được tính toán, không được chọn từ các trường hợp dữ liệu tồn tại. Phương pháp này mang lại các trung tâm nằm gần nhau và trung tâm chung của dữ liệu.
  • RP - điểm được chọn ngẫu nhiên . kcác trường hợp riêng biệt của dữ liệu được chọn ngẫu nhiên làm trung tâm ban đầu.
  • RUNFP - điểm xa nhất (chạy lựa chọn). Các ktrường hợp đầu tiên được lấy làm trung tâm và sau đó trong suốt thời gian còn lại của các trường hợp của bộ dữ liệu, việc thay thế dần dần giữa các trung tâm được thực hiện; Mục đích của các thay thế là để đạt được các kđiểm cuối cách xa nhau nhất trong không gian biến. Những điểm (trường hợp) chiếm vị trí ngoại vi trong đám mây dữ liệu là các trung tâm ban đầu được tạo ra. (Phương thức được sử dụng làm mặc định trong thủ tục k-mean SPSS QUICK CLUSTER. Xem chi tiết trong Thuật toán SPSS. Xem thêm mô tả tại đây ).
  • SIMFP - điểm xa nhất (lựa chọn đơn giản). Trung tâm đầu tiên được chọn là trường hợp ngẫu nhiên từ bộ dữ liệu. Trung tâm thứ 2 được chọn là trường hợp cách xa tối đa từ trung tâm đó. Trung tâm thứ 3 được chọn là trường hợp cách xa tối đa so với hai trường hợp đó (từ vị trí gần nhất trong hai), v.v.
  • KMPP - điểm xa nhất ngẫu nhiên, hoặc k-nghĩa là ++. Trung tâm đầu tiên được chọn là trường hợp ngẫu nhiên từ bộ dữ liệu. Trung tâm thứ 2 cũng được chọn ngẫu nhiên, nhưng xác suất lựa chọn trường hợp tỷ lệ thuận với khoảng cách (euclide vuông) của nó với trung tâm (thứ 1) đó. Trung tâm thứ 3 cũng được chọn ngẫu nhiên với xác suất lựa chọn tỷ lệ thuận với khoảng cách của một trường hợp đến gần nhất của hai trung tâm đó, v.v. (Arthur, D., Vassilvitskii, S .. K-nghĩa là ++: những lợi thế của việc gieo hạt cẩn thận. // Kỷ yếu của hội nghị chuyên đề ACM-SIAM hàng năm lần thứ 18 về thuật toán rời rạc. 2007, 1027 ném1035.)
  • GREP - điểm đại diện nhóm . Ý tưởng phương pháp - để thu thập làm trung tâmkđại diện nhất, trường hợp phó phó Trung tâm thứ 1 được lấy làm trường hợp gần nhất với cenroid dữ liệu chung. Sau đó, các trung tâm còn lại được chọn từ các điểm dữ liệu theo cách mà mỗi điểm được xem là có gần hơn không (và bao nhiêu, tính theo khoảng cách euclide bình phương) đến một tập hợp các điểm so với từng điểm sau là cho bất kỳ trung tâm đã có sẵn. Tức là mỗi điểm được kiểm tra như một ứng cử viên để đại diện cho một số nhóm điểm chưa đủ đại diện bởi các trung tâm đã được thu thập. Điểm đại diện nhất trong khía cạnh này được chọn là trung tâm tiếp theo. (Kaufman, L. Rousseeuw, PJ Tìm các nhóm trong dữ liệu: giới thiệu về phân tích cụm., 1990. Xem thêm: Pena, JM và cộng sự Một so sánh thực nghiệm về bốn phương pháp khởi tạo cho thuật toán K-mean // Nhận dạng mẫu Lett. 20 (10), 1999,
  • [Ngoài ra còn có một phương pháp hay, chưa được tôi triển khai trong macro, để tạo kcác điểm từ thống nhất ngẫu nhiên nhưng "ít ngẫu nhiên hơn ngẫu nhiên", ở đâu đó giữa ngẫu nhiên và tham lam; xem cơ sở lý thuyết tiềm năng cho phương pháp đó]
  • Một phương pháp nữa là thực hiện phân cụm theo phân cấp theo phương pháp của Ward. Bạn có thể làm điều đó trên mẫu phụ của các đối tượng nếu mẫu quá lớn. Sau đó, phương tiện của các kcụm được tạo ra bởi nó là các hạt giống ban đầu cho thủ tục k-mean. Ward thích hợp hơn các phương pháp phân cụm phân cấp khác vì nó chia sẻ mục tiêu mục tiêu chung với phương tiện k.

Các phương thức RGC, RP, SIMFP, KMPP phụ thuộc vào các số ngẫu nhiên và có thể thay đổi kết quả của chúng từ chạy sang chạy.

Phương pháp RUNFP có thể nhạy cảm với thứ tự trường hợp trong bộ dữ liệu; nhưng phương thức GREP thì không (ngoài các trường hợp khi có nhiều trường hợp, quan hệ giống hệt nhau, trong dữ liệu). Phương pháp GREP có thể không thu thập được tất cả các ktrung tâm nếu ksố lượng lớn các trường hợp trong dữ liệu ( n), đặc biệt là khi k>n/2. [Macro sẽ thông báo nếu dữ liệu không cho phép phương thức đó thu thập ktrung tâm]. Phương pháp GREP là phương pháp chậm nhất, nó tính toán ma trận khoảng cách giữa tất cả các trường hợp, do đó nó sẽ không phù hợp nếu có nhiều hàng chục nghìn hoặc hàng triệu trường hợp. Tuy nhiên, bạn có thể làm điều đó trên một mẫu con ngẫu nhiên của dữ liệu.

Hiện tại tôi không thảo luận về phương pháp nào là "tốt hơn" và trong hoàn cảnh nào, bởi vì tôi chưa thực hiện việc thăm dò mô phỏng rộng rãi cho câu hỏi cho đến nay. Ấn tượng rất sơ bộ và hời hợt của tôi là GREP đặc biệt xứng đáng (nhưng nó đắt tiền) và nếu bạn muốn phương pháp thực sự rẻ vẫn đủ sức cạnh tranh, thì chỉ cần k điểm ngẫu nhiên, RP, là một lựa chọn hợp lý.



4

Lần trước tôi đã làm một tổng quan tài liệu toàn diện về vấn đề này, được thừa nhận gần 20 năm trước, hai khuyến nghị chính là:

  1. Để sử dụng Phương pháp của Ward (đây là thuật toán phân tích cụm phân cấp tiêu chuẩn) để tìm các trung tâm ban đầu.
  2. Sử dụng bắt đầu ngẫu nhiên.

Trong các ứng dụng dữ liệu lớn, phương pháp của Ward không hoạt động tốt, mặc dù nó có thể được áp dụng cho một mẫu phụ.

Tôi đã thực hiện một số mô phỏng mà tôi chưa bao giờ xuất bản để xuất bản và thấy rằng:

Điểm chính tôi rút ra từ đây là thuật toán SPSS tốt đến mức đáng ngạc nhiên, nhưng nếu ai đó có tài nguyên, hơn 1000 điểm bắt đầu ngẫu nhiên là con đường để đi.


Trong các mô phỏng của bạn, bạn có nhận thấy bất kỳ thay đổi nào trong hành vi đối với dữ liệu chiều cao không?
Arin Chaudhuri

Không phải là tôi có thể nhớ lại. Tuy nhiên, mô phỏng của tôi sẽ không sử dụng nhiều hơn khoảng 20 biến. Tuy nhiên, chiều càng cao, số lần bắt đầu ngẫu nhiên càng lớn thì tất cả những thứ khác đều giống nhau.
Tim

Lưu ý: Thuật toán SPSS mặc định (btw liên kết của bạn bị hỏng) là những gì tôi viết tắt là RUNFP trong câu trả lời của mình.
ttnphns

3

Với danh pháp ttnphns, tôi đã thử nghiệm RGC, RP và KMPP trên:

  • Điểm 2D / 3D
  • túi từ từ tài liệu văn bản
  • đường cong với khoảng cách cơ bản .L2

Tôi không đề xuất RGC vì các trung tâm kết quả rất gần nhau: giá trị trung bình của nhiều điểm gần với giá trị trung bình toàn cầu (luật số lượng lớn). Điều này có thể làm chậm quá trình hội tụ rất nhiều: phải mất một thời gian trước khi các cụm bắt đầu cá nhân hóa.

RP nói chung là tốt và sẽ là một lựa chọn dễ dàng đầu tiên.

KMPP rất phổ biến và hoạt động rất tốt ở kích thước nhỏ: so với RP, nó có xu hướng giảm xác suất kết thúc ở mức tối thiểu cục bộ.

Tuy nhiên, khi tôi đang làm việc trên các bộ dữ liệu lớn (1 triệu điểm là các từ trong tài liệu văn bản có kích thước lớn), RP hơi vượt trội so với KMPP theo nghĩa là nó đã kết thúc với số lần lặp ít hơn một chút. Tôi đã ngạc nhiên về điều này. Trong tập dữ liệu lớn / chiều cao, không thể hội tụ đến mức tối thiểu toàn cầu, bạn đo lường chất lượng là "mức tối thiểu cục bộ tốt như thế nào" = "SOD cuối cùng nhỏ như thế nào". Cả hai phương pháp đều có chất lượng như nhau.

Lưu ý rằng điều quan trọng là sử dụng phương pháp ngẫu nhiên nếu bạn muốn sử dụng bản sao để cải thiện chất lượng.


Cảm ơn. Tôi sẽ xử lý dữ liệu kích thước lớn nên điều này khá hữu ích.
Arin Chaudhuri
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.