k
Để dễ giải thích và rõ ràng, tôi sẽ khởi động cụm.
Nói chung, bạn có thể sử dụng các cụm được ghép lại như vậy để đo lường tính ổn định của giải pháp của bạn: nó hầu như không thay đổi hay nó hoàn toàn thay đổi?
Mặc dù bạn không có sự thật cơ bản, tất nhiên bạn có thể so sánh phân cụm kết quả từ các lần chạy khác nhau của cùng một phương thức (lấy mẫu lại) hoặc kết quả của các thuật toán phân cụm khác nhau, ví dụ như bằng cách lập bảng:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
vì các cụm là danh nghĩa, thứ tự của chúng có thể thay đổi tùy ý. Nhưng điều đó có nghĩa là bạn được phép thay đổi thứ tự sao cho các cụm tương ứng. Sau đó, các phần tử đường chéo * đếm các trường hợp được gán cho cùng một cụm và các phần tử nằm ngoài đường chéo hiển thị theo cách thay đổi bài tập:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Tôi muốn nói rằng việc lấy mẫu lại là tốt để thiết lập mức độ ổn định của cụm của bạn trong mỗi phương thức. Không có điều đó sẽ không có ý nghĩa quá nhiều để so sánh kết quả với các phương pháp khác.
tôi , tôicó ý nghĩa của đường chéo trước. Các hàng / cột bổ sung sau đó hiển thị từ cụm nào cụm mới có trường hợp của nó.
Bạn không trộn lẫn xác thực chéo k và phân cụm k-có nghĩa là, phải không?