Tôi đang tìm cách phân cụm một tập dữ liệu nhỏ (64 quan sát của 4 biến khoảng và một biến phân loại ba yếu tố duy nhất). Bây giờ, tôi còn khá mới đối với phân tích cụm, nhưng tôi biết rằng đã có tiến bộ đáng kể kể từ ngày mà phân cụm phân cấp hoặc phương tiện k là các tùy chọn có sẵn duy nhất. Cụ thể, có vẻ như các phương pháp phân cụm dựa trên mô hình mới có sẵn, như được chỉ ra bởi chl , cho phép sử dụng "các chỉ số phù hợp để quyết định về số lượng cụm hoặc lớp".
Tuy nhiên, gói R tiêu chuẩn cho phân cụm dựa trên mô hình mclust
rõ ràng sẽ không phù hợp với các mô hình có kiểu dữ liệu hỗn hợp. Các fpc
mô hình sẽ, nhưng có rắc rối lắp một mô hình, tôi nghi ngờ vì bản chất phi gaussian của các biến liên tục. Tôi có nên tiếp tục với cách tiếp cận dựa trên mô hình? Tôi muốn tiếp tục sử dụng R nếu có thể. Theo tôi thấy, tôi có một vài lựa chọn:
- Chuyển đổi biến phân loại ba cấp thành hai biến giả và sử dụng
mclust
. Tôi không chắc chắn nếu điều này sẽ làm sai lệch kết quả, nhưng nếu không đây là tùy chọn ưa thích của tôi. - Chuyển đổi các biến liên tục bằng cách nào đó và sử dụng
fpc
gói. - Sử dụng một số gói R khác mà tôi chưa gặp phải.
- Tạo một ma trận khác nhau bằng cách sử dụng thước đo của Gower và sử dụng các kỹ thuật cụm phân cấp hoặc tái định vị truyền thống.
Liệu các số liệu thống kê.se hivemind có bất kỳ đề xuất ở đây?