Phân cụm với K-Means và EM: chúng có liên quan như thế nào?


50

Tôi đã nghiên cứu các thuật toán để phân cụm dữ liệu (học tập không giám sát): EM và k-mean. Tôi tiếp tục đọc như sau:

k-mean là một biến thể của EM, với giả định rằng các cụm là hình cầu.

Ai đó có thể giải thích câu trên? Tôi không hiểu ý nghĩa hình cầu là gì, và kmeans và EM có liên quan như thế nào, vì một người thực hiện phân công xác suất và người còn lại thực hiện theo cách xác định.

Ngoài ra, trong trường hợp nào tốt hơn là sử dụng phân cụm k-nghĩa? hoặc sử dụng phân cụm EM?


Hình cầu có nghĩa là ma trận hiệp phương sai giống hệt nhau cho mỗi cụm (giả sử phân phối gaussian), còn được gọi là phân cụm dựa trên mô hình. Phương pháp nào bạn coi là xác định?
chl

2
Sẽ thật tốt nếu bạn đưa ra nguồn trích dẫn.
ttnphns

1
k-có nghĩa là "giả định" rằng các cụm có nhiều hoặc ít tròn và rắn (không bị kéo dài hoặc cong hoặc chỉ có vòng tròn) trong không gian euclide. Họ không bắt buộc phải đến từ các bản phân phối bình thường . EM không yêu cầu nó (hoặc ít nhất là loại phân phối cụ thể được biết đến).
ttnphns

Câu trả lời:


38

K có nghĩa là

  1. Hard gán một điểm dữ liệu cho một cụm cụ thể khi hội tụ.
  2. Nó sử dụng định mức L2 khi tối ưu hóa (Điểm định mức L2 tối thiểu {Theta} và tọa độ trọng tâm của nó).

EM

  1. Soft gán một điểm cho các cụm (vì vậy nó đưa ra xác suất của bất kỳ điểm nào thuộc về bất kỳ trọng tâm nào).
  2. Nó không phụ thuộc vào định mức L2, nhưng dựa trên Kỳ vọng, nghĩa là xác suất của điểm thuộc về một cụm cụ thể. Điều này làm cho K-có nghĩa là thiên về các cụm hình cầu.

57

Không có "thuật toán k-mean". Có thuật toán MacQueens cho phương tiện k, thuật toán Lloyd / Forgy cho phương tiện k, phương pháp Hartigan-Wong, ...

Cũng không có "thuật toán" EM. Đây là một kế hoạch chung của việc liên tục mong đợi các khả năng và sau đó tối đa hóa mô hình. Biến thể phổ biến nhất của EM còn được gọi là "Mô hình hỗn hợp Gaussian" (GMM), trong đó mô hình là các bản phân phối Gaussian đa biến.

Người ta có thể xem xét thuật toán Lloyds bao gồm hai bước:

  • Bước E, trong đó mỗi đối tượng được gán cho centroid sao cho nó được gán cho cụm có khả năng nhất.
  • bước M, trong đó mô hình (= centroid) được tính toán lại (= tối ưu hóa bình phương tối thiểu).

... Lặp lại hai bước này, như được thực hiện bởi Lloyd, làm cho điều này thực sự là một ví dụ của sơ đồ EM chung. Nó khác với GMM rằng:

  • nó sử dụng phân vùng cứng, tức là mỗi đối tượng được gán cho chính xác một cụm
  • mô hình chỉ là centroid, không có hiệp phương sai hoặc phương sai được tính đến

kk

10
Nhiều cuốn sách bằng phương tiện k với thuật toán lloyds, nhưng ông không bao giờ gọi nó là phương tiện k. MacQueen giới thiệu tên k-nghĩa. Xin lỗi: nhiều sách sử dụng đặt tên không chính xác ở đây . k-nghĩa là vấn đề, lloyd chỉ có một giải pháp phổ biến. Trên thực tế, R sẽ chạy Hartigan-Wong theo mặc định để giải quyết kmeans.
Anony-Mousse

4

Dưới đây là một ví dụ, nếu tôi đang làm điều này trong mplus, điều này có thể hữu ích và khen những câu trả lời toàn diện hơn:

Nói rằng tôi có 3 biến liên tục và muốn xác định các cụm dựa trên những biến này. Tôi sẽ chỉ định một mô hình hỗn hợp (cụ thể hơn trong trường hợp này, một mô hình hồ sơ tiềm ẩn), giả sử tính độc lập có điều kiện (các biến quan sát là độc lập, được đưa ra thành viên cụm) như:

Model: 
%Overall%
v1* v2* v3*;  ! Freely estimated variances
[v1 v2 v3];   ! Freely estimated means

Tôi sẽ chạy mô hình này nhiều lần, mỗi lần chỉ định một số cụm khác nhau và chọn giải pháp tôi thích nhất (để thực hiện đây là một chủ đề rộng lớn).

Để sau đó chạy k-mean, tôi sẽ chỉ định mô hình sau:

Model: 
%Overall%
v1@0 v2@0 v3@0;  ! Variances constrained as zero
[v1 v2 v3];      ! Freely estimated means

Vì vậy, thành viên lớp chỉ dựa trên khoảng cách đến phương tiện của các biến quan sát. Như đã nêu trong các phản ứng khác, phương sai không liên quan gì đến nó.

Điều tuyệt vời khi thực hiện điều này trong mplus là đây là các mô hình lồng nhau, và vì vậy bạn có thể trực tiếp kiểm tra xem các ràng buộc có phù hợp xấu hơn hay không, ngoài việc có thể so sánh sự không phù hợp trong phân loại giữa hai phương pháp. Nhân tiện, cả hai mô hình này đều có thể được ước tính bằng thuật toán EM, vì vậy sự khác biệt thực sự là về mô hình.

Nếu bạn nghĩ trong không gian 3 chiều, 3 có nghĩa là tạo một điểm ... và phương sai của ba trục của một hình elip chạy qua điểm đó. Nếu cả ba phương sai đều giống nhau, bạn sẽ có một hình cầu.


Cảm ơn bạn cho ví dụ này. Nó giúp rất nhiều sửa chữa một số ý tưởng.
Myna
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.