Tôi thường phải đối mặt với vấn đề phải chọn ak số cụm. Phân vùng tôi kết thúc thường chọn dựa trên mối quan tâm về mặt lý thuyết và hình ảnh hơn là tiêu chí chất lượng.
Tôi có hai câu hỏi chính.
Đầu tiên liên quan đến ý tưởng chung về chất lượng cụm. Từ những gì tôi hiểu các tiêu chí, chẳng hạn như "khuỷu tay", đang đề xuất một giá trị tối ưu liên quan đến hàm chi phí. Vấn đề tôi có với khung này là các tiêu chí tối ưu không được xem xét về mặt lý thuyết, do đó có một số mức độ phức tạp (liên quan đến lĩnh vực nghiên cứu của bạn) luôn muốn trong các nhóm / cụm cuối cùng của bạn.
Hơn nữa, như được giải thích ở đây , giá trị tối ưu cũng liên quan đến các ràng buộc "mục đích hạ nguồn" (chẳng hạn như các hạn chế kinh tế), vì vậy hãy xem xét những gì bạn sẽ làm với các vấn đề phân cụm.
Một ràng buộc rõ ràng là một mặt phải tìm các cụm có ý nghĩa / có thể giải thích được, và bạn càng có nhiều cụm thì càng khó diễn giải chúng.
Nhưng điều này không phải lúc nào cũng đúng, tôi thường thấy rằng 8, 10 hoặc 12 cụm là số cụm "thú vị" tối thiểu tôi muốn có trong phân tích của mình.
Tuy nhiên, rất thường các tiêu chí như khuỷu tay gợi ý các cụm ít hơn nhiều, thường là 2,3 hoặc 4.
Q1 . Những gì tôi muốn biết là dòng đối số tốt nhất là gì khi bạn quyết định chọn nhiều cụm hơn là giải pháp được đề xuất bởi một tiêu chí nhất định (chẳng hạn như khuỷu tay). Theo trực giác, càng luôn phải tốt hơn khi không có ràng buộc (chẳng hạn như mức độ thông minh của các nhóm bạn nhận được hoặc trong ví dụ coursera khi bạn có một khoản tiền rất lớn). Làm thế nào bạn sẽ tranh luận điều này trong một bài báo tạp chí khoa học?
Một cách khác để nói điều này, là để nói rằng một khi bạn đã xác định số lượng cụm tối thiểu (với các tiêu chí này), bạn thậm chí có nên giải thích lý do tại sao bạn chọn nhiều cụm hơn thế không? Không nên biện minh chỉ khi chọn số lượng cụm có ý nghĩa tối thiểu?
Q2 . Liên quan, tôi không hiểu làm thế nào các biện pháp chất lượng nhất định, chẳng hạn như hình bóng, thực sự có thể giảm khi số lượng cụm tăng lên. Tôi không thấy trong hình bóng một hình phạt cho số lượng cụm, vậy làm thế nào điều này có thể? Về mặt lý thuyết, bạn càng có nhiều cụm thì chất lượng cụm càng lớn ?
# R code
library(factoextra)
data("iris")
ir = iris[,-5]
# Hierarchical Clustering, Ward.D
# 5 clusters
ec5 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean',
hc_method = 'ward.D', graph = T, k = 5)
# 20 clusters
ec20 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean',
hc_method = 'ward.D', graph = T, k = 20)
a = fviz_silhouette(ec5) # silhouette plot
b = fviz_silhouette(ec20) # silhouette plot
c = fviz_cluster(ec5) # scatter plot
d = fviz_cluster(ec20) # scatter plot
grid.arrange(a,b,c,d)
Theoretically, the more clusters you have, the greater is the cluster quality
Hoàn toàn không, không nhất thiết. Hầu hết các tiêu chí phân cụm nội bộ (bao gồm) Chỉ số Silhouette, theo cách này hoặc theo cách "bình thường hóa" hoặc được hiệu chỉnh trong công thức của chúng nhằm mục đích thử cực trị ở số (các) cụm tốt nhất, sao cho k nhỏ hơn hoặc lớn hơn số đó sẽ mang lại giá trị tiêu chí thấp hơn. Dù sao, tiêu chí "Elbow SSw" không được bình thường hóa, và nó là một tiêu chí xấu, không đáng để xem xét; thay vào đó hãy sử dụng Clinski-Harabasz hoặc Davies-Bouldin.
what is the best line of argument when you decide to choose more clusters rather than the solution proposed by a certain criteria
Nếu bạn đọc các khía cạnh của tôi dưới liên kết ở trên, bạn sẽ hiểu rằng không thể có các đối số tốt nhất cũng như tổng hợp . Xét cho cùng, lý lẽ tốt nhất (đối với k nhỏ hơn hoặc lớn hơn) là tính thuyết phục của nó đối với bản thân hoặc khán giả. Quyết định của con người không dựa trên lập luận, nó là tùy tiện; tranh luận là giải thích , để bào chữa cho những gì không bao giờ có thể được bào chữa.