Tôi đang thử nghiệm phân loại dữ liệu thành các nhóm. Tôi còn khá mới mẻ với chủ đề này và đang cố gắng tìm hiểu đầu ra của một số phân tích.
Sử dụng các ví dụ từ Quick-R , một số R
gói được đề xuất. Tôi đã thử sử dụng hai trong số các gói này ( fpc
sử dụng kmeans
hàm và mclust
). Một khía cạnh của phân tích này mà tôi không hiểu là so sánh kết quả.
# comparing 2 cluster solutions
library(fpc)
cluster.stats(d, fit1$cluster, fit2$cluster)
Tôi đã đọc qua các phần có liên quan của fpc
hướng dẫn và vẫn chưa rõ về những gì tôi nên hướng tới. Ví dụ, đây là đầu ra của việc so sánh hai cách tiếp cận phân cụm khác nhau:
$n
[1] 521
$cluster.number
[1] 4
$cluster.size
[1] 250 119 78 74
$diameter
[1] 5.278162 9.773658 16.460074 7.328020
$average.distance
[1] 1.632656 2.106422 3.461598 2.622574
$median.distance
[1] 1.562625 1.788113 2.763217 2.463826
$separation
[1] 0.2797048 0.3754188 0.2797048 0.3557264
$average.toother
[1] 3.442575 3.929158 4.068230 4.425910
$separation.matrix
[,1] [,2] [,3] [,4]
[1,] 0.0000000 0.3754188 0.2797048 0.3557264
[2,] 0.3754188 0.0000000 0.6299734 2.9020383
[3,] 0.2797048 0.6299734 0.0000000 0.6803704
[4,] 0.3557264 2.9020383 0.6803704 0.0000000
$average.between
[1] 3.865142
$average.within
[1] 1.894740
$n.between
[1] 91610
$n.within
[1] 43850
$within.cluster.ss
[1] 1785.935
$clus.avg.silwidths
1 2 3 4
0.42072895 0.31672350 0.01810699 0.23728253
$avg.silwidth
[1] 0.3106403
$g2
NULL
$g3
NULL
$pearsongamma
[1] 0.4869491
$dunn
[1] 0.01699292
$entropy
[1] 1.251134
$wb.ratio
[1] 0.4902123
$ch
[1] 178.9074
$corrected.rand
[1] 0.2046704
$vi
[1] 1.56189
Câu hỏi chính của tôi ở đây là để hiểu rõ hơn về cách diễn giải kết quả so sánh cụm này.
Trước đây, tôi đã hỏi thêm về ảnh hưởng của việc thu nhỏ dữ liệu và tính toán ma trận khoảng cách. Tuy nhiên, điều đó đã được trả lời rõ ràng bởi mariana nhẹ nhàng hơn và tôi chỉ sắp xếp lại câu hỏi của mình để nhấn mạnh rằng tôi quan tâm đến việc diễn đạt kết quả đầu ra của mình, đó là so sánh hai thuật toán phân cụm khác nhau.
Phần trước của câu hỏi : Nếu tôi đang thực hiện bất kỳ loại phân cụm nào, tôi có nên luôn chia tỷ lệ dữ liệu không? Ví dụ: tôi đang sử dụng hàm dist()
trên tập dữ liệu tỷ lệ của mình làm đầu vào cho cluster.stats()
hàm, tuy nhiên tôi không hiểu đầy đủ những gì đang diễn ra. Tôi đọc về dist()
đây và nó nói rằng:
hàm này tính toán và trả về ma trận khoảng cách được tính bằng cách sử dụng thước đo khoảng cách đã chỉ định để tính khoảng cách giữa các hàng của ma trận dữ liệu.