Phương pháp cụm mạnh mẽ cho dữ liệu hỗn hợp trong R


12

Tôi đang tìm cách phân cụm một tập dữ liệu nhỏ (64 quan sát của 4 biến khoảng và một biến phân loại ba yếu tố duy nhất). Bây giờ, tôi còn khá mới đối với phân tích cụm, nhưng tôi biết rằng đã có tiến bộ đáng kể kể từ ngày mà phân cụm phân cấp hoặc phương tiện k là các tùy chọn có sẵn duy nhất. Cụ thể, có vẻ như các phương pháp phân cụm dựa trên mô hình mới có sẵn, như được chỉ ra bởi chl , cho phép sử dụng "các chỉ số phù hợp để quyết định về số lượng cụm hoặc lớp".

Tuy nhiên, gói R tiêu chuẩn cho phân cụm dựa trên mô hình mclustrõ ràng sẽ không phù hợp với các mô hình có kiểu dữ liệu hỗn hợp. Các fpcmô hình sẽ, nhưng có rắc rối lắp một mô hình, tôi nghi ngờ vì bản chất phi gaussian của các biến liên tục. Tôi có nên tiếp tục với cách tiếp cận dựa trên mô hình? Tôi muốn tiếp tục sử dụng R nếu có thể. Theo tôi thấy, tôi có một vài lựa chọn:

  1. Chuyển đổi biến phân loại ba cấp thành hai biến giả và sử dụng mclust. Tôi không chắc chắn nếu điều này sẽ làm sai lệch kết quả, nhưng nếu không đây là tùy chọn ưa thích của tôi.
  2. Chuyển đổi các biến liên tục bằng cách nào đó và sử dụng fpcgói.
  3. Sử dụng một số gói R khác mà tôi chưa gặp phải.
  4. Tạo một ma trận khác nhau bằng cách sử dụng thước đo của Gower và sử dụng các kỹ thuật cụm phân cấp hoặc tái định vị truyền thống.

Liệu các số liệu thống kê.se hivemind có bất kỳ đề xuất ở đây?


Để chuyển đổi dữ liệu phân loại của bạn sang mã hóa giả (một mã hóa nóng), bạn có thể sử dụng hàm dummy.data.frame. là đầu vào, bạn có thể cung cấp dữ liệu hỗn hợp của mình và khi đầu ra, nó chỉ mã hóa dữ liệu phân loại.
Naghmeh

Câu trả lời:


7

Tôi khuyên bạn nên sử dụng Gower với phân cụm phân cấp tiếp theo. Phân cụm theo phân cấp vẫn là phương pháp linh hoạt và phù hợp nhất trong trường hợp số lượng đối tượng nhỏ (chẳng hạn như 64). Nếu biến phân loại của bạn là danh nghĩa, Gower sẽ mã hóa lại bên trong thành các biến giả và độ tương tự xúc xắc cơ sở (như một phần của Gower) trên chúng. Nếu biến của bạn là thứ tự, bạn cũng nên biết rằng phiên bản mới nhất trên hệ số Gower cũng có thể chứa nó.

Đối với nhiều chỉ số để xác định số lượng cụm "tốt nhất", hầu hết chúng tồn tại độc lập với thuật toán phân cụm này hoặc thuật toán phân cụm đó. Bạn không cần phải tìm kiếm các gói phân cụm nhất thiết phải kết hợp các chỉ số như vậy bởi vì các gói sau có thể tồn tại dưới dạng các gói riêng biệt. Bạn để lại một loạt các giải pháp cụm sau một gói phân cụm và sau đó so sánh chúng với một chỉ mục từ một gói khác.


Tôi cuối cùng đã đi xuống tuyến đường này, cảm ơn vì tiền boa.
đánh dấu
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.