Tôi đang tìm cách làm k-nghĩa là phân cụm trên một tập hợp các điểm 10 chiều. Bắt: có 10 ^ 10 điểm .
Tôi đang tìm kiếm chỉ trung tâm và kích thước của các cụm lớn nhất (giả sử 10 đến 100 cụm); Tôi không quan tâm đến cụm nào mỗi điểm kết thúc. Sử dụng k-nghĩa cụ thể là không quan trọng; Tôi chỉ tìm kiếm một hiệu ứng tương tự, bất kỳ phương tiện k gần đúng hoặc thuật toán liên quan nào cũng sẽ rất tuyệt (phương tiện xe buýt nhỏ-SGD, ...). Vì GMM có ý nghĩa tương tự như k-mean, nên thực hiện GMM trên cùng một dữ liệu kích thước cũng rất thú vị.
Ở quy mô này, việc lấy mẫu dữ liệu có thể không thay đổi kết quả đáng kể: tỷ lệ tìm thấy 10 cụm hàng đầu giống nhau bằng cách sử dụng mẫu 1/10000 của dữ liệu là rất tốt. Nhưng ngay cả khi đó, đó là một vấn đề 10 ^ 6 điểm nằm trên / ngoài rìa của khả năng kéo.