thuật toán k-mean ++ và các ngoại lệ

8

Người ta biết rằng thuật toán k-mean chịu sự hiện diện của các ngoại lệ. k-mean ++ là một phương pháp hiệu quả để khởi động trung tâm cụm. Tôi đã trải qua PPT bởi những người sáng lập phương pháp, Sergei Vassilvitskii và David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (slide 28) cho thấy việc khởi tạo trung tâm cụm là không bị ảnh hưởng bởi ngoại lệ như được thấy dưới đây.

Theo phương pháp k-mean ++, các điểm xa nhất có nhiều khả năng là trung tâm ban đầu. Theo cách này, điểm ngoại lệ (điểm ngoài cùng bên phải) cũng phải là một trọng tâm cụm ban đầu. Giải thích cho hình là gì?

clustering k-means

— prashanth
nguồn

2

Có, os ngoại lệ có nhiều khả năng được chọn. Nhưng cũng có nhiều inliers nữa, cơ hội chọn một trong số chúng cũng rất đáng kể. Giả sử bạn có một ngoại lệ xa hơn gấp 10 lần, thì khả năng đó sẽ cao hơn 100 lần so với trước đó. Nếu bạn có 100 inliers, cơ hội là khoảng 50% và nếu bạn có 1000 inliers, cơ hội chọn ngoại lệ là khoảng 10%.

Nhưng tất cả trong tất cả, tôi muốn nói k-nghĩa là ++ có thể sẽ chọn các ngoại lệ làm trung tâm ban đầu (ví dụ trên, ngẫu nhiên sẽ chọn nó ở mức 1% tương ứng. 0,1%), và do đó có lẽ nhạy cảm hơn với các ngoại lệ (và trên thực tế , nhiều người báo cáo cải thiện rất ít với k-nghĩa ++). Tuy nhiên, nó không tạo ra nhiều sự khác biệt: bất kỳ phương pháp k-mean nào cũng bị ảnh hưởng, bởi vì tất cả chúng đều tối ưu hóa cùng một mục tiêu. Và tổng bình phương là một mục tiêu nhạy cảm với các ngoại lệ, độc lập với cách bạn tối ưu hóa. Do vấn đề nằm trong mục tiêu, chọn ngoại lệ làm trung tâm có thể mang lại kết quả "tốt hơn" . Tối ưu toàn cầu có thể trông như thế này!

— Có QUIT - Anony-Mousse
nguồn

1

Điều này dường như được giải thích trên slide 27.

Họ đề xuất chọn ngẫu nhiên cụm sao đầu tiên, theo phương tiện k cổ điển. Nhưng thứ hai được chọn khác nhau. Chúng tôi xem xét từng điểm x và gán cho nó một trọng số bằng khoảng cách giữa x và trọng tâm được chọn đầu tiên, được nâng lên thành alpha công suất. Alpha có thể có một số giá trị thú vị.

Nếu alpha bằng 0, chúng ta có thuật toán k-mean cổ điển, bởi vì tất cả các điểm đều có trọng số 1, vì vậy chúng đều có khả năng được chọn như nhau.

Nếu alpha là vô cùng (hoặc, trong thực tế, một số lượng rất lớn) chúng ta có phương pháp điểm Furthest, trong đó điểm xa nhất có trọng lượng rất lớn, điều đó khiến nó rất có thể được chọn. Như đã thấy trên các slide 24-26, điều này làm cho nó nhạy cảm với các ngoại lệ.

Họ đề xuất cài đặt alpha thành 2. Điều này mang lại xác suất tốt cho việc chọn các điểm ở xa trung tâm được chọn đầu tiên, nhưng không tự động chọn điểm xa nhất. Điều này mang lại cho phương thức của họ, k-nghĩa là ++, thuộc tính tốt của việc ít nhạy cảm hơn với các ngoại lệ.

— xã hội
nguồn

stackoverflow.com/questions/5466323/ từ đưa ra một minh họa về thuật toán k-mean ++. Ở đây chúng ta thấy rằng alpha = 2 dành cho trọng số D ^ 2 trong đó bình phương khoảng cách của một điểm đến tâm gần nhất được lấy, được giải thích độc đáo trong bài báo gốc. ilpub.stanford.edu:8090/778/1/2006-13.pdf . Nhưng ngay cả trong trường hợp alpha = 2, nó phải lấy điểm ngoại lệ làm trọng tâm ban đầu.

— prashanth