Vì đây rõ ràng là một câu hỏi kinh điển và nó chưa được đề cập ở đây:
Một phần mở rộng tự nhiên của phương tiện k để sử dụng các số liệu khoảng cách khác với khoảng cách Euclide tiêu chuẩn trên là sử dụng thủ thuật kernel . Điều này đề cập đến ý tưởng ánh xạ ngầm các đầu vào vào không gian Hilbert cao, hoặc vô hạn, trong đó khoảng cách tương ứng với hàm khoảng cách chúng ta muốn sử dụng và chạy thuật toán ở đó. Nghĩa là, hãy để là một bản đồ đặc trưng sao cho số liệu mong muốn có thể được viết , chúng tôi chạy phương tiện k trên các điểm . Trong nhiều trường hợp, chúng tôi không thể tính toán rõ ràng bản đồ , nhưng chúng tôi có thểRdφ:Rp→Hdd(x,y)=∥φ(x)−φ(y)∥H{φ(xi)}φtính toán hạt nhân . Không phải tất cả các số liệu khoảng cách đều phù hợp với mô hình này, nhưng nhiều người thực hiện và có các hàm như vậy được xác định trên chuỗi, biểu đồ, hình ảnh, phân phối xác suất, v.v.k(x,y)=⟨φ(x),φ(y)⟩H
Trong tình huống này, trong thuật toán k-mean tiêu chuẩn (Lloyd's), chúng ta có thể gán các điểm dễ dàng cho các cụm của chúng, nhưng chúng ta biểu thị các trung tâm cụm một cách ngầm định (dưới dạng kết hợp tuyến tính của các điểm đầu vào trong không gian Hilbert). Tìm đại diện tốt nhất trong không gian đầu vào sẽ yêu cầu tìm trung bình Fréchet , khá tốn kém. Vì vậy, thật dễ dàng để có được các bài tập cụm với một kernel, khó hơn để có được phương tiện.
Bài viết sau đây thảo luận về thuật toán này và liên kết nó với phân cụm phổ:
I. Dhillon, Y. Guan và B. Kulis. Kernel có nghĩa là, Phân cụm phổ và Cắt bình thường. KDD 2005.