Dưới đây là một ví dụ, nếu tôi đang làm điều này trong mplus, điều này có thể hữu ích và khen những câu trả lời toàn diện hơn:
Nói rằng tôi có 3 biến liên tục và muốn xác định các cụm dựa trên những biến này. Tôi sẽ chỉ định một mô hình hỗn hợp (cụ thể hơn trong trường hợp này, một mô hình hồ sơ tiềm ẩn), giả sử tính độc lập có điều kiện (các biến quan sát là độc lập, được đưa ra thành viên cụm) như:
Model:
%Overall%
v1* v2* v3*; ! Freely estimated variances
[v1 v2 v3]; ! Freely estimated means
Tôi sẽ chạy mô hình này nhiều lần, mỗi lần chỉ định một số cụm khác nhau và chọn giải pháp tôi thích nhất (để thực hiện đây là một chủ đề rộng lớn).
Để sau đó chạy k-mean, tôi sẽ chỉ định mô hình sau:
Model:
%Overall%
v1@0 v2@0 v3@0; ! Variances constrained as zero
[v1 v2 v3]; ! Freely estimated means
Vì vậy, thành viên lớp chỉ dựa trên khoảng cách đến phương tiện của các biến quan sát. Như đã nêu trong các phản ứng khác, phương sai không liên quan gì đến nó.
Điều tuyệt vời khi thực hiện điều này trong mplus là đây là các mô hình lồng nhau, và vì vậy bạn có thể trực tiếp kiểm tra xem các ràng buộc có phù hợp xấu hơn hay không, ngoài việc có thể so sánh sự không phù hợp trong phân loại giữa hai phương pháp. Nhân tiện, cả hai mô hình này đều có thể được ước tính bằng thuật toán EM, vì vậy sự khác biệt thực sự là về mô hình.
Nếu bạn nghĩ trong không gian 3 chiều, 3 có nghĩa là tạo một điểm ... và phương sai của ba trục của một hình elip chạy qua điểm đó. Nếu cả ba phương sai đều giống nhau, bạn sẽ có một hình cầu.