GMM sử dụng các ngọn đồi chồng chéo kéo dài đến vô tận (nhưng thực tế chỉ tính cho 3 sigma). Mỗi điểm được tất cả các điểm xác suất của ngọn đồi. Ngoài ra, các ngọn đồi có "hình quả trứng" [được thôi, chúng là các hình elip đối xứng ] và, sử dụng ma trận hiệp phương sai đầy đủ, có thể bị nghiêng .
K-means cứng chuyển nhượng một điểm để một đơn cụm, do đó điểm số của các trung tâm cụm khác được bỏ qua (đang ngầm reset bằng không / không quan tâm). Những ngọn đồi là bong bóng xà phòng hình cầu. Khi hai bong bóng xà phòng chạm nhau, ranh giới giữa chúng trở thành một mặt phẳng (siêu phẳng). Giống như khi bạn thổi một bọt nhiều bọt xà phòng, các bong bóng ở bên trong không bằng phẳng mà là hình hộp, do đó, ranh giới giữa nhiều quả cầu (siêu) thực sự tạo thành một phân vùng Voronoi của không gian. Trong 2D, điều này có xu hướng trông mơ hồ giống như đóng gói hình lục giác, nghĩ rằng một tổ ong (mặc dù tất nhiên các tế bào Voronoi không được đảm bảo là hình lục giác). Một ngọn đồi K-nghĩa là tròn và không bị nghiêng, do đó nó có sức mạnh đại diện ít hơn; nhưng nó nhanh hơn nhiều để tính toán, đặc biệt là trong các kích thước cao hơn.
Bởi vì K-mean sử dụng thước đo khoảng cách Euclide, nó giả định rằng kích thước tương đương và có trọng lượng bằng nhau. Vì vậy, nếu kích thước X có các đơn vị dặm mỗi giờ, thay đổi 0-80, và kích thước của Y có các đơn vị của bảng, thay đổi 0-400, và bạn phù hợp vòng tròn trong không gian XY này, sau đó một kích thước (và lây lan của nó) sẽ mạnh hơn các chiều khác và sẽ làm lu mờ kết quả. Đây là lý do tại sao nó thường được chuẩn hóa dữ liệu khi sử dụng phương tiện K.
Cả GMM và K-có nghĩa là mô hình hóa dữ liệu bằng cách khớp gần đúng nhất với những gì đã cho. GMM phù hợp với trứng nghiêng, và K-có nghĩa là phù hợp với các quả cầu chưa được lọc. Nhưng dữ liệu cơ bản có thể có hình dạng giống như bất cứ thứ gì, nó có thể là hình xoắn ốc hoặc bức tranh Picasso và mỗi thuật toán vẫn sẽ chạy và chụp ảnh tốt nhất. Việc mô hình kết quả trông giống như dữ liệu thực tế hay không phụ thuộc vào quá trình vật lý cơ bản tạo ra dữ liệu. (Ví dụ, các phép đo thời gian trễ là một phía; Gaussian có phù hợp không? Có thể.)
Rn
Do đó, hình ảnh nhị phân 8x8 của bạn sẽ được hiểu là một hypercube 64 chiều trong hyperquadrant đầu tiên. Các thuật toán sau đó sử dụng các phép tương tự hình học để tìm các cụm. Khoảng cách, với phương tiện K, hiển thị dưới dạng khoảng cách Euclide trong không gian 64 chiều. Đó là một cách để làm điều đó.