Làm thế nào để tạo ra một sơ đồ đẹp về kết quả phân tích cụm k-nghĩa?


77

Tôi đang sử dụng R để thực hiện phân cụm K-nghĩa. Tôi đang sử dụng 14 biến để chạy K-mean

  • Một cách khá hay để vẽ kết quả của K-nghĩa là gì?
  • Có bất kỳ triển khai hiện có?
  • Có 14 biến làm phức tạp âm mưu kết quả?

Tôi đã tìm thấy một thứ gọi là GGcluster trông rất tuyệt nhưng nó vẫn đang được phát triển. Tôi cũng đã đọc một cái gì đó về ánh xạ sammon, nhưng không hiểu rõ lắm. Đây sẽ là một lựa chọn tốt?


1
Nếu vì lý do nào đó bạn quan tâm đến các giải pháp hiện tại cho vấn đề rất thực tế này, vui lòng xem xét thêm nhận xét vào câu trả lời hiện có hoặc cập nhật bài đăng của bạn với nhiều ngữ cảnh hơn. Làm việc với 40.000 trường hợp là một thông tin quan trọng ở đây.
chl

Một ví dụ khác với 11 lớp và 10 biến nằm ở trang 118 của Yếu tố học tập thống kê ; không thông tin khủng khiếp.
chối

thư viện (hoạt hình) kmeans.ani (yourData, centre = 2)
Kartheek Palepu

Câu trả lời:


27

Tôi sẽ đẩy cốt truyện hình bóng cho điều này, vì không chắc rằng bạn sẽ nhận được nhiều thông tin có thể thực hiện được từ các ô cặp khi số thứ nguyên là 14.

library(cluster)
library(HSAUR)
data(pottery)
km    <- kmeans(pottery,3)
dissE <- daisy(pottery) 
dE2   <- dissE^2
sk2   <- silhouette(km$cl, dE2)
plot(sk2)

Cách tiếp cận này được trích dẫn nhiều và được biết đến (xem ở đây để giải thích).

Rousseeuw, PJ (1987) Bóng : Một trợ giúp đồ họa cho việc giải thích và xác nhận phân tích cụm . J. Tính toán. Táo. Môn Toán. , 20 , 53-65.


Tôi thích điều này. Tôi sẽ nhìn xa hơn vào nó. Cảm ơn bạn.
JEquihua

@ user603: Bạn có quan tâm để đưa ra ý chính của lời giải thích trong câu trả lời của bạn không? Liên kết bạn đưa ra 2,5 năm trước đã chết. Bài viết vẫn còn đó nhưng một đoạn giới thiệu ngắn về kỹ thuật này sẽ rất hay.
Steen

Liên kết đã chỉ vào tờ giấy (đó là một điểm truy cập không bị kiểm soát, mà thực sự đã tối đi).
dùng603

Tôi có một âm mưu kỳ lạ với silhoette này (bên trái là clusplot và bên phải là cốt truyện silhoette, điều này có được mong đợi không?) - i.imgur.com/ZIpPlhT.png
vipin8169

56

Dưới đây là một ví dụ có thể giúp bạn:

library(cluster)
library(fpc)

data(iris)
dat <- iris[, -5] # without known classification 
# Kmeans clustre analysis
clus <- kmeans(dat, centers=3)
# Fig 01
plotcluster(dat, clus$cluster)

# More complex
clusplot(dat, clus$cluster, color=TRUE, shade=TRUE, 
         labels=2, lines=0)

# Fig 03
with(iris, pairs(dat, col=c(1:3)[clus$cluster])) 

Dựa trên biểu đồ sau, bạn có thể quyết định biến nào trong số các biến ban đầu của mình. Có thể 14 biến là rất lớn, vì vậy bạn có thể thử phân tích thành phần chính (PCA) trước và sau đó sử dụng hai hoặc ba thành phần đầu tiên từ PCA để thực hiện phân tích cụm.


1
Tôi không thể tìm ra làm thế nào để giới thiệu dc1 và dc2? Bạn có thể chỉ cho tôi đi đúng hướng?
UD1989

1
@Upasana Datta: Hai thành phần là kết quả của việc áp dụng phân tích thành phần nguyên tắc (PCA, hàm Princeomp) trên dữ liệu. Chúng là sự kết hợp tuyến tính của các biến đầu vào chiếm phần lớn sự biến thiên của các quan sát.
rakensi

Xin chào, tôi đang hoang mang về cách hình elip được tính trong cốt truyện thứ 2? Làm thế nào để xác định "hai thành phần này giải thích 95,81% biến thiên điểm"?
mynameisJEFF

@mynameisJEFF Tôi sẽ giả sử rằng nó sử dụng các biến tiềm ẩn / chính tắc, giá trị, v.v. Bạn có thể kiểm tra tài liệu, nhưng đó thường là ý nghĩa của nó khi bạn thấy một biplot được dán nhãn như vậy. Điều đó nói rằng 95,81% biến thể của dữ liệu được giải thích bởi 2 biến tiềm ẩn mà dữ liệu được vẽ theo. Cập nhật - Tôi vừa Googled nó và, thực sự, nó sử dụng các thành phần chính.
Hack-R

Tại sao bạn cần "với" ở đây? Nó sẽ gọn hơn khi chỉ để lại pairschức năng.
Anatolii Stepaniuk

4

Cách đơn giản nhất mà tôi biết để làm điều đó là như sau:

X <- data.frame(c1=c(0,1,2,4,5,4,6,7),c2=c(0,1,2,3,3,4,5,5))
km <- kmeans(X, center=2)
plot(X,col=km$cluster)
points(km$center,col=1:2,pch=8,cex=1)

Bằng cách này, bạn có thể vẽ các điểm của mỗi cụm bằng cách sử dụng một màu khác nhau và trọng tâm của chúng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.