Chọn số lượng cụm - tiêu chí xác thực phân cụm so với các xem xét lý thuyết miền


8

Tôi thường phải đối mặt với vấn đề phải chọn ak số cụm. Phân vùng tôi kết thúc thường chọn dựa trên mối quan tâm về mặt lý thuyết và hình ảnh hơn là tiêu chí chất lượng.

Tôi có hai câu hỏi chính.

Đầu tiên liên quan đến ý tưởng chung về chất lượng cụm. Từ những gì tôi hiểu các tiêu chí, chẳng hạn như "khuỷu tay", đang đề xuất một giá trị tối ưu liên quan đến hàm chi phí. Vấn đề tôi có với khung này là các tiêu chí tối ưu không được xem xét về mặt lý thuyết, do đó có một số mức độ phức tạp (liên quan đến lĩnh vực nghiên cứu của bạn) luôn muốn trong các nhóm / cụm cuối cùng của bạn.

Hơn nữa, như được giải thích ở đây , giá trị tối ưu cũng liên quan đến các ràng buộc "mục đích hạ nguồn" (chẳng hạn như các hạn chế kinh tế), vì vậy hãy xem xét những gì bạn sẽ làm với các vấn đề phân cụm.

Một ràng buộc rõ ràng là một mặt phải tìm các cụm có ý nghĩa / có thể giải thích được, và bạn càng có nhiều cụm thì càng khó diễn giải chúng.

Nhưng điều này không phải lúc nào cũng đúng, tôi thường thấy rằng 8, 10 hoặc 12 cụm là số cụm "thú vị" tối thiểu tôi muốn có trong phân tích của mình.

Tuy nhiên, rất thường các tiêu chí như khuỷu tay gợi ý các cụm ít hơn nhiều, thường là 2,3 hoặc 4.

Q1 . Những gì tôi muốn biết là dòng đối số tốt nhất là gì khi bạn quyết định chọn nhiều cụm hơn là giải pháp được đề xuất bởi một tiêu chí nhất định (chẳng hạn như khuỷu tay). Theo trực giác, càng luôn phải tốt hơn khi không có ràng buộc (chẳng hạn như mức độ thông minh của các nhóm bạn nhận được hoặc trong ví dụ coursera khi bạn có một khoản tiền rất lớn). Làm thế nào bạn sẽ tranh luận điều này trong một bài báo tạp chí khoa học?

Một cách khác để nói điều này, là để nói rằng một khi bạn đã xác định số lượng cụm tối thiểu (với các tiêu chí này), bạn thậm chí có nên giải thích lý do tại sao bạn chọn nhiều cụm hơn thế không? Không nên biện minh chỉ khi chọn số lượng cụm có ý nghĩa tối thiểu?

Q2 . Liên quan, tôi không hiểu làm thế nào các biện pháp chất lượng nhất định, chẳng hạn như hình bóng, thực sự có thể giảm khi số lượng cụm tăng lên. Tôi không thấy trong hình bóng một hình phạt cho số lượng cụm, vậy làm thế nào điều này có thể? Về mặt lý thuyết, bạn càng có nhiều cụm thì chất lượng cụm càng lớn ?

# R code 

library(factoextra)

data("iris")
ir = iris[,-5]

# Hierarchical Clustering, Ward.D
# 5 clusters
ec5  = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean', 
              hc_method = 'ward.D', graph = T, k = 5)
# 20 clusters
ec20 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean', 
              hc_method = 'ward.D', graph = T, k = 20)

a = fviz_silhouette(ec5)  # silhouette plot
b = fviz_silhouette(ec20) # silhouette plot

c = fviz_cluster(ec5)  # scatter plot
d = fviz_cluster(ec20) # scatter plot

grid.arrange(a,b,c,d)

nhập mô tả hình ảnh ở đây


Các phương thức như WCSS trong K có nghĩa là thuật toán có thể được sử dụng để lấy giá trị K tối ưu để phân cụm.
avi sharma

Một số khía cạnh của thống kê chất lượng cụm.stackexchange.com/a/195481/3277 . Ngoài ra, nếu bạn muốn một số thông tin chung về tiêu chí phân cụm nội bộ, vui lòng xem tài liệu "Tiêu chí phân cụm" trên trang web của tôi.
ttnphns

Theoretically, the more clusters you have, the greater is the cluster qualityHoàn toàn không, không nhất thiết. Hầu hết các tiêu chí phân cụm nội bộ (bao gồm) Chỉ số Silhouette, theo cách này hoặc theo cách "bình thường hóa" hoặc được hiệu chỉnh trong công thức của chúng nhằm mục đích thử cực trị ở số (các) cụm tốt nhất, sao cho k nhỏ hơn hoặc lớn hơn số đó sẽ mang lại giá trị tiêu chí thấp hơn. Dù sao, tiêu chí "Elbow SSw" không được bình thường hóa, và nó là một tiêu chí xấu, không đáng để xem xét; thay vào đó hãy sử dụng Clinski-Harabasz hoặc Davies-Bouldin.
ttnphns

what is the best line of argument when you decide to choose more clusters rather than the solution proposed by a certain criteriaNếu bạn đọc các khía cạnh của tôi dưới liên kết ở trên, bạn sẽ hiểu rằng không thể có các đối số tốt nhất cũng như tổng hợp . Xét cho cùng, lý lẽ tốt nhất (đối với k nhỏ hơn hoặc lớn hơn) là tính thuyết phục của nó đối với bản thân hoặc khán giả. Quyết định của con người không dựa trên lập luận, nó là tùy tiện; tranh luận là giải thích , để bào chữa cho những gì không bao giờ có thể được bào chữa.
ttnphns

WCSS sẽ luôn giảm khi K tăng, cho dù nhiều cụm có phù hợp hay không.
gung - Phục hồi Monica

Câu trả lời:


3

Các khóa đang tìm các cụm có ý nghĩa và những gì bạn đánh giá cao trong các cụm kết quả.

Hãy để tôi minh họa bằng một ví dụ đơn giản. Ví dụ là hai cụm Gaussian được phân tách khá tốt. Sử dụng phương tiện k để phân chia dữ liệu thành 2 hoặc 3 cụm, chúng tôi nhận được các phân vùng này:

set.seed(1066)
x = c(rnorm(200,0,1), rnorm(200,6,1))
y = rnorm(400,0,1)
XY = data.frame(x,y)

KM2 = kmeans(XY, 2)
KM3 = kmeans(XY, 3)

par(mfrow=c(1,2))
plot(XY, pch=20, col=KM2$cluster+1, asp=1)
plot(XY, pch=20, col=KM3$cluster+1, asp=1)

Hai và ba cụm

Silhouette nói rằng bạn tốt hơn với hai cụm chứ không phải ba.

library(cluster)
plot(silhouette(KM2$cluster, dist(XY)))
plot(silhouette(KM3$cluster, dist(XY)))

Lô đất hình

Nó rất hữu ích để xem tại sao hình bóng đi xuống. Trước hết, dễ dàng nhận thấy rằng đối với cụm bên phải, hình bóng hầu như không thay đổi. Lý do cho sự sụt giảm lớn trong hình bóng trung bình là cụm bên trái đã bị chia làm hai. Tại sao không có hình bóng như vậy? Như tôi đã nói, bạn cần xem xét những gì số liệu ủng hộ. Đối với mỗi điểm, hình bóng so sánh khoảng cách trung bình giữa điểm đó và các điểm khác trong cùng một cụm với khoảng cách trung bình giữa điểm đó và cụm khác gần nhất. Khi có hai cụm, các điểm trong mỗi cụm được tách biệt tốt với cụm khác. Không phải như vậy với ba cụm. Các điểm trong hai cụm bên trái là phải đối diện với nhau. Đó là cách số liệu có thể đi xuống. Silhouette không chỉ thưởng cho các cụm trong đó các điểm trong cụm gần nhau; nó cũng trừng phạt các cụm không tách biệt với nhau.

Vì vậy, đó là "mục đích hạ lưu". Có những lúc có các cụm phân tách tốt không quá quan trọng. Ví dụ: bạn có thể sử dụng phân cụm k-nghĩa trên các màu trong ảnh để nhóm các màu tương tự để nén ảnh. Trong trường hợp đó, miễn là mỗi cụm là nhất quán hợp lý (nhỏ gọn), không có vấn đề gì nếu đôi khi hai cụm có thể gần nhau. Tuy nhiên, mọi người thường sử dụng phân cụm như một cách để hiểu cấu trúc cơ bản hơn trong dữ liệu của họ. Ví dụ, trong ví dụ hai Gaussian ở trên, hai cụm cho thấy cấu trúc bên dưới tốt hơn ba cụm. Nếu bạn đang tìm kiếm cấu trúc, bạn muốn số lượng cụm đại diện gần nhất cho các nhóm tự nhiên trong dữ liệu của bạn. Nhưng đây là hai mục tiêu khác nhau:

  1. một nhóm các điểm trong đó các điểm trong cùng một cụm nằm gần nhau và

  2. một nhóm cũng phân tách các cụm khác nhau

Đối số của bạn rằng nhiều cụm nên luôn luôn tốt hơn là được miễn là bạn chỉ muốn các điểm trong cùng một cụm được đóng. Nhưng điều đó không tốt nếu bạn đang cố gắng khám phá cấu trúc cơ bản. Cấu trúc là những gì có trong dữ liệu. Lấy một cụm và gọi nó là hai cụm không phải là một sự cải tiến.


Cảm ơn bạn đã trả lời của bạn, rất nhiều thông tin. Chỉ cần quay lại nhanh chóng theo quan điểm của tôi, chúng ta hãy tưởng tượng trong ví dụ của bạn rằng 0 là một ý nghĩa cụ thể, sắp xếp ngưỡng định tính và phân vùng xuất hiện ở đó sẽ tiết lộ điều gì đó có ý nghĩa (về mặt lý thuyết). Vấn đề của tôi với hình bóng là trên thực tế, mặc dù các điểm xuất hiện gần nhau nhưng chúng thực sự rất xa về mặt lý thuyết (vì 0 là một số ngưỡng đáng kể.) Theo kinh nghiệm của tôi, thường là những khác biệt về chất trong cách giải thích các cụm quan trọng.
giac

1
Tôi không nghĩ rằng chúng tôi không đồng ý. Tôi đã làm ví dụ đơn giản là hai cụm Gaussian, vì vậy sự khác biệt giữa -0.1 và 0.1 là nhỏ và phiên bản ba cụm là không có thật. Tuy nhiên, tôi hoàn toàn chấp nhận rằng có thể có các ứng dụng trong đó "x <0:" và "x> 0" có nghĩa là một cái gì đó hoàn toàn khác và sự tách biệt này sẽ có ý nghĩa. Nhưng bạn không thể mong đợi một số liệu như hình bóng để biết vấn đề của bạn. Nó chỉ nhìn thấy dữ liệu. Vì vậy, trách nhiệm của bạn là diễn giải dữ liệu và số liệu về vấn đề của bạn. Nếu số liệu không phản ánh vấn đề của bạn, nó sẽ không hữu ích.
G5W

Vâng tôi đồng ý. Chỉ cần một suy nghĩ khác, ấn tượng của tôi là những gì bạn mô tả rất nhiều divisivemô hình, nhưng trong agglomerativemô hình, mỗi cá nhân là đầu tiên và quan trọng nhất là một cụm. Vì vậy, tôi cảm thấy rằng trong mô hình này "càng nhiều càng tốt". Chúng tôi không buộc 2 nhóm phải tách ra, mà là 2 cá nhân hợp nhất trong một nhóm. Tôi tự hỏi làm thế nào thích hợp là hình bóng cho cụm kết tụ. Bạn nghĩ sao?
giac

Như đã đề cập trong câu trả lời của @ hxd1011, trường hợp cực đoan đang cho phép mọi điểm là một cụm. Toàn bộ quan điểm của phân cụm là tìm ra một số cấu trúc vượt ra ngoài, vì vậy có lẽ "càng nhiều càng tốt" không thể hoàn toàn đúng; chỉ đúng đến một điểm. Mục tiêu là tìm đúng mức kết hợp các điểm để bạn nắm bắt cấu trúc mà không hợp nhất các nhóm riêng biệt. Ở mỗi bước, bạn phải đặt câu hỏi - tôi nên dừng ở đây hay tiếp tục kết hợp các cụm?
G5W

1
Nói chung, nếu các cụm của bạn không được phân tách tốt, hình bóng sẽ nói để tiếp tục kết hợp chúng. Tuy nhiên, hình bóng thậm chí không được xác định cho các cụm có một điểm. Nó sẽ không được áp dụng khi bắt đầu một quá trình kết tụ.
G5W

1

Lưu ý rằng, xác nhận chéo cũng có thể được sử dụng trong vấn đề phân cụm.

Ví dụ, trong K có nghĩa là, việc tăng số lượng cụm sẽ luôn làm giảm mục tiêu chúng ta đang phù hợp. Một trường hợp cực đoan sẽ là số cụm bằng số điểm dữ liệu và mục tiêu là0. Nhưng đó là một mô hình quá mức và sẽ thất bại trên bộ thử nghiệm.

Đề nghị của tôi là kiểm tra "thước đo chất lượng phân cụm" trên bộ dữ liệu thử nghiệm.


Bạn có thể cho tôi một tài liệu tham khảo để xác nhận chéo trong phân tích cụm?
giac
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.