Phân cụm dữ liệu kiểu hỗn hợp với R

19

Tôi tự hỏi liệu có thể thực hiện trong R một cụm dữ liệu có các biến dữ liệu hỗn hợp. Nói cách khác, tôi có một bộ dữ liệu chứa cả biến số và biến phân loại bên trong và tôi đang tìm cách tốt nhất để phân cụm chúng. Trong SPSS tôi sẽ sử dụng cụm hai bước. Tôi tự hỏi liệu trong R tôi có thể tìm thấy một kỹ thuật tương tự. Tôi đã nói về gói poLCA, nhưng tôi không chắc ...

r clustering mixed-type-data

— Giorgio Speesato
nguồn

1

Không phải SPSS TwoStep được thiết kế để xử lý các bộ dữ liệu lớn? (Tôi cung cấp câu trả lời cho một câu hỏi liên quan ở đây .) Nếu không, liệu phản ứng của tôi đối với phân tích thành phần chính có thể được áp dụng cho các bộ dữ liệu có chứa hỗn hợp các biến liên tục và phân loại không? được giúp đỡ?

— chl

Trong cụm gói R có "daisy" sẽ tạo ra ma trận không giống nhau cho dữ liệu hỗn hợp (hệ số tương tự Gower). Sau đó, bạn có thể sử dụng ? Agnes hoặc các chức năng phân cụm khác.

— tê giác

1

Đừng nhầm lẫn phương pháp với việc thực hiện. Trước tiên hãy tìm một thuật toán phân cụm có ý nghĩa. Sau đó tìm kiếm một gói R thực hiện nó.

— Shadowtalker

Tương tự Gower có thể được sử dụng.

— ttnphns

@gung gần đây đã đóng một câu hỏi rất giống tôi hỏi. Tôi đã nói rằng câu hỏi của tôi không đúng chủ đề vì chủ yếu là về phần mềm. Điều này dường như tương tự về phần mềm. Tôi rất muốn biết lý do tại sao các quy tắc ở đây được thi hành không nhất quán. Tâm trí bạn, tôi nghĩ rằng câu hỏi là thông tin, nhưng các quy tắc nên là các quy tắc.

— Weiwen Ng

8

Điều này có thể đến muộn nhưng hãy thử klaR ( http://cran.r-project.org/web/packages/klaR/index.html )

install.packages("klar")

Nó sử dụng thuật toán k-mode không phân cấp, dựa trên kết hợp đơn giản dưới dạng hàm khoảng cách, do đó khoảng cách giữa một biến m của hai điểm dữ liệu và được cho bởi $x$ $y$

δ (x_{m}, y_{m}) = {\begin{cases} 1 & x_{m} \neq y_{m}, \\ 0 & otherwise \end{cases}

$\delta(x_m,y_m) = \begin{cases} 1 & x_m \neq y_m,\\ 0 & \text{otherwise} \end{cases}$

Có một lỗ hổng với gói, đó là nếu hai điểm dữ liệu có cùng khoảng cách đến trung tâm cụm, điểm đầu tiên trong dữ liệu của bạn được chọn trái ngược với điểm ngẫu nhiên, nhưng bạn có thể dễ dàng sửa đổi bit trong mã.

Để phù hợp với phân cụm biến hỗn hợp, bạn sẽ cần đi vào mã và sửa đổi hàm khoảng cách để xác định các chế độ và biến số và không số.

— chiến thắng
nguồn

7

Một cách hấp dẫn khác để xử lý các biến của các loại hỗn hợp là sử dụng ma trận gần đúng / tương tự từ Rừng ngẫu nhiên: http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf . Điều này tạo ra một cách thống nhất để đối xử bình đẳng với tất cả các biến (tuy nhiên, hãy lưu ý đến vấn đề sai lệch lựa chọn biến). Mặt khác, thực sự không có cách xác định khoảng cách phổ quát vàng cho các biến của các loại hỗn hợp. Tất cả phụ thuộc vào bối cảnh ứng dụng.

— XGS
nguồn

4

Bạn có thể sử dụng nhiều phân tích tương ứng để tạo các kích thước liên tục từ các biến phân loại và sau đó sử dụng chúng với các biến số trong bước thứ hai.

— ftr
nguồn

1

Làm thế nào bạn sẽ điều trị các biến số trong MCA? Dùng sự rời rạc?

— chl

Có các phần mở rộng của MCA có thể bao gồm các biến liên tục, xem ví dụ về các phân tích đồng nhất

— kjetil b halvorsen

3

Vâng, bạn chắc chắn có thể. Bằng cách làm cho các biến phân loại số nhân tạo. Hoặc sử dụng phân cụm dựa trên ma trận khoảng cách (fpc có thể làm điều đó). Câu hỏi đầu tiên bạn nên cố gắng trả lời là: nó có thực sự có ý nghĩa không?

— Anony-Mousse -Reinstate Monica
nguồn

3

$j$ $k$

S_{G} = \frac{\sum_{i = 1}^{n} w_{i, j, k} s_{i, j, k}}{\sum_{i = 1}^{n} w_{i, j, k}}

$S_G = \frac{\sum_{i=1}^n{w_{i,j,k} s_{i,j,k}}}{\sum_{i=1}^n{w_{i,j,k}}}$

i

$i$

$w_{i,j,k}$

$s_{i,j,k}$

$w_{i,j,k}$
các ký tự đa biến (danh nghĩa hoặc thứ tự): 1 cho đẳng thức, 0 khác (tương đương với hệ số khớp đơn giản)
$s_{i,j,k} = 1 - \frac{|X_{i,j} - X_{i,k}|}{R_i}$ $R_i$ $i$

$S_G$

$\sqrt{1-S_G}$

— Engelbert Buxbaum
nguồn

Bạn có thể định nghĩa "nhân vật" (và "nhân vật chính") trong câu trả lời của bạn là gì không? Làm điều đó có nghĩa là bạn có nghĩa là biến / thuộc tính / tính năng? Ngoài ra, tôi có thể thêm rằng Gower có thể được tính toán cho các biến số thứ tự mà không coi chúng là danh nghĩa ("đa cấp"), xem .

— ttnphns

Caracter, biến, tính năng là tất cả các từ đồng nghĩa. Hồng y có nghĩa là khoảng thời gian hoặc quy mô hợp lý.

— Engelbert Buxbaum

Cảm ơn bạn đã làm rõ nó. Tôi chỉ hỏi bởi vì thuật ngữ của bạn rõ ràng không phổ biến trong thống kê hoặc học máy: "ký tự" là không bình thường, và loại mà bạn gọi là loại biến "hồng y" thường được gọi là biến "tỷ lệ" hay còn gọi là biến "siêu hình", nó trái ngược với phân loại .

— ttnphns

1

Nếu các giá trị có thể của các biến phân loại không quá nhiều, thì bạn có thể nghĩ đến việc tạo các biến nhị phân từ các giá trị đó. Bạn có thể coi các biến nhị phân này là biến số và chạy phân cụm. Đó là những gì tôi đã làm cho dự án của tôi.

— Raghvendra
nguồn

1

phân cụm k-nguyên mẫu có thể phù hợp hơn ở đây. Nó kết hợp các chế độ k và phương tiện k và có thể phân cụm dữ liệu số / phân loại hỗn hợp. Đối với R, sử dụng Gói 'clustMixType'.

https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf

— prashanth
nguồn

0

VarSelLCM cung cấp gói

Lựa chọn biến cho phân cụm dữ liệu kiểu hỗn hợp dựa trên mô hình với các giá trị bị thiếu

Trên CRAN , và được mô tả nhiều hơn trên giấy .

Ưu điểm so với một số phương pháp trước đó là nó cung cấp một số trợ giúp trong việc lựa chọn số lượng cụm và xử lý dữ liệu bị thiếu. Ứng dụng sáng bóng đẹp được cung cấp cũng không được nhăn mặt.

— radek
nguồn