Làm thế nào để giải thích ý nghĩa của âm mưu Silhouette?


34

Tôi đang cố gắng sử dụng cốt truyện hình bóng để xác định số lượng cụm trong tập dữ liệu của tôi. Đưa ra tập dữ liệu Train , tôi đã sử dụng mã MATLAB sau

Train_data = full(Train);  
Result = [];  
for num_of_cluster = 1:20  
    centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid');  
    s = silhouette(Train_data,centroid,'sqeuclid');  
    Result = [ Result; num_of_cluster mean(s)];  
end  
plot( Result(:,1),Result(:,2),'r*-.');`

Biểu đồ kết quả được đưa ra dưới đây với xaxis là số cụm và yaxis có nghĩa là giá trị hình bóng .

Làm thế nào để tôi giải thích biểu đồ này? Làm thế nào để tôi xác định số lượng cụm từ này?

nhập mô tả hình ảnh ở đây


Để xác định số lượng cụm, hãy xem phương pháp cây bao trùm tối thiểu (MST) trong phần trực quan hóa-phần mềm để phân cụm .
chối

@Learner: Hàm bóng có sẵn trong thư viện không? Nếu không, bạn có thể đăng nó trong câu hỏi của bạn nếu bạn không phiền?
Truyền thuyết

@Legend: Nó có sẵn trong hộp công cụ Thống kê Matlab.
Học viên

@Learner: Ooops ... Tôi nghĩ bạn đang sử dụng Python :) Cảm ơn vì đã cho tôi biết về nó.
Truyền thuyết

1
+1 để hiển thị mã! Ngoài ra, vì giá trị trung bình tối đa của hình bóng của bạn xảy ra khi k = 2, bạn có thể muốn kiểm tra xem dữ liệu của mình có được phân cụm hay không, có thể được thực hiện bằng cách sử dụng thống kê khoảng cách ( liên kết khác ).
Franck Dernoncourt

Câu trả lời:


41

Câu trả lời của Serge chứa điểm quan trọng, đó là hệ số bóng định lượng chất lượng phân cụm đạt được - vì vậy bạn nên chọn số lượng cụm tối đa hóa hệ số bóng.


Câu trả lời dài là cách tốt nhất để đánh giá kết quả của các nỗ lực phân cụm của bạn là bắt đầu bằng cách thực sự kiểm tra - kiểm tra con người - các cụm được hình thành và đưa ra quyết định dựa trên sự hiểu biết về những gì dữ liệu đại diện, những gì một cụm đại diện, và những gì cụm được dự định để đạt được.

Có nhiều phương pháp định lượng để đánh giá kết quả phân cụm nên được sử dụng làm công cụ, với sự hiểu biết đầy đủ về các hạn chế. Chúng có xu hướng khá trực quan trong tự nhiên, và do đó có sức hấp dẫn tự nhiên (như các vấn đề phân cụm nói chung).

Ví dụ: khối lượng / bán kính / mật độ cụm, sự gắn kết hoặc phân tách giữa các cụm, v.v ... Những khái niệm này thường được kết hợp, ví dụ, tỷ lệ phân tách cho sự gắn kết phải lớn nếu phân cụm thành công.

Cách phân cụm được đo được thông báo bằng loại thuật toán phân cụm được sử dụng. Ví dụ, đo chất lượng của thuật toán phân cụm hoàn chỉnh (trong đó tất cả các điểm được đặt vào cụm) có thể rất khác so với chất lượng đo của thuật toán phân cụm mờ dựa trên ngưỡng (trong đó một số điểm có thể không được phân cụm thành 'nhiễu' ).


Hệ số bóng là một trong những biện pháp như vậy. Nó hoạt động như sau:

Đối với mỗi điểm p, trước tiên hãy tìm khoảng cách trung bình giữa p và tất cả các điểm khác trong cùng một cụm (đây là thước đo độ gắn kết, gọi nó là A). Sau đó tìm khoảng cách trung bình giữa p và tất cả các điểm trong cụm gần nhất (đây là thước đo tách khỏi cụm khác gần nhất, gọi nó là B). Hệ số hình bóng cho p được định nghĩa là sự khác biệt giữa B và A chia cho lớn hơn của hai (max (A, B)).

Chúng tôi đánh giá hệ số cụm của từng điểm và từ đó chúng tôi có thể có được hệ số cụm trung bình 'tổng thể'.

Theo trực giác, chúng tôi đang cố gắng đo không gian giữa các cụm. Nếu sự gắn kết cụm là tốt (A nhỏ) và tách cụm là tốt (B lớn), tử số sẽ lớn, v.v.

Tôi đã xây dựng một ví dụ ở đây để chứng minh điều này bằng đồ họa.

Hệ số phân cụm Kết quả phân cụm cho ncl cluster = 2: 5

Trong các ô này, dữ liệu tương tự được vẽ năm lần; màu sắc biểu thị các cụm được tạo bởi phân cụm k-nghĩa, với k = 1,2,3,4,5. Đó là, tôi đã buộc một thuật toán phân cụm để chia dữ liệu thành 2 cụm, sau đó 3, v.v. và tô màu cho biểu đồ tương ứng.

Biểu đồ hình bóng cho thấy hệ số hình bóng cao nhất khi k = 3, cho thấy đó là số cụm tối ưu. Trong ví dụ này, chúng tôi may mắn có thể trực quan hóa dữ liệu và chúng tôi có thể đồng ý rằng thực sự, ba cụm nắm bắt tốt nhất phân đoạn của tập dữ liệu này.

Nếu chúng tôi không thể hình dung được dữ liệu, có lẽ vì tính chiều cao hơn, một âm mưu hình bóng vẫn sẽ cho chúng tôi một gợi ý. Tuy nhiên, tôi hy vọng câu trả lời hơi dài dòng của tôi ở đây cũng đưa ra quan điểm rằng "gợi ý" này có thể rất thiếu hoặc chỉ đơn giản là sai trong một số tình huống nhất định.


5
Cảm ơn bạn đã trả lời chi tiết của bạn, và đặc biệt là các lô rất hữu ích. Tuy nhiên, tôi không hiểu lắm the average silhouette witdh "suggestion" could be very insufficient or just plain wrong in certain scenarios.như bạn tuyên bố.
Zhubarb

10

Hãy xem Hộp công cụ phân tích tính hợp lệ của cụm (CVAP) và một số tài liệu (liên kết) từ CVAP:

Chỉ số hình bóng (hình bóng trung bình tổng thể) giá trị Silhouette lớn hơn cho thấy chất lượng tốt hơn của kết quả phân cụm [Chen et al. 2002]

  • N. Bolshakova, F. Azuaje. 2003. Kỹ thuật xác thực cụm cho dữ liệu biểu hiện bộ gen, Xử lý tín hiệu. V.83. N4, P.825-833.
  • E. Dimitriadou, S. Dolnicar, A. Weing Tàu. Kiểm tra các chỉ mục để xác định Số lượng cụm trong bộ dữ liệu nhị phân. Tâm lý học, 67 (1): 137-160, 2002.

Bạn cũng có thể kiểm tra Công cụ (đơn giản) này để ước tính số lượng cụm

Chỉ cần xem các ví dụ về cả hai bộ công cụ (Bạn cũng có thể sử dụng các kỹ thuật xác thực cụm khác)


6

Tôi đã xem xét điều tương tự ngày hôm nay và tìm thấy một giải thích ở đây . Nó có ý nghĩa logic nhưng tôi không chắc liệu chúng ta có thể áp dụng cách hiểu một cách mù quáng cho các bộ dữ liệu của mình hay không. Tóm lại, những gì bài báo nói là như sau:

0.71-1.0
A strong structure has been found

0.51-0.70
A reasonable structure has been found

0.26-0.50
The structure is weak and could be artificial. Try additional methods of data analysis.

< 0.25
No substantial structure has been found

Tuy nhiên, có vẻ như chúng ta có thể sử dụng chiều rộng hình bóng để bắt các ngoại lệ. Trong một tác vụ phân cụm tài liệu mà tôi hiện đang xử lý, những cái có chiều rộng hình âm là các ngoại lệ xác định (khi được kiểm tra chéo với ý nghĩa ngữ nghĩa của chúng). Tôi không chắc chắn nếu chiều rộng này sẽ cải thiện sau khi loại bỏ các ngoại lệ (một lần nữa, điều này có ý nghĩa logic nhưng tôi đã không tự làm điều này).


4
Chỉ là một nhận xét lịch sử, bảng ban đầu đến từ Sewell, Grandville và PJ Rousseau. "Tìm nhóm trong dữ liệu: Giới thiệu về phân tích cụm." (1990). img546.imageshack.us/img546/4523/cnfg.png (có thể được xuất bản trước đó trong một trong các bài viết của tác giả)
Franck Dernoncourt

Các liên kết trong câu trả lời là không còn có sẵn. Bạn có thể vui lòng cung cấp một tài liệu tham khảo khác?
BajajG

Đây là liên kết đến bài viết từ kho lưu trữ web: web.archive.org/web/20111002220804/http://www.unesco.org:80/ trên
Justas 29/12/18

1

Nếu bạn đang cố gắng chọn số lượng cụm cho việc học tập không giám sát thì có lẽ bạn có thể thử làm một cái gì đó như-

http://scikit-learn.org/urdy/auto_examples/cluster/plot_kmeans_sil Silhouette_analysis.html

Họ sử dụng nhiều hơn chỉ có nghĩa là điểm số bóng (họ sử dụng phân phối) nhưng nó có ý nghĩa. Nó dường như thích các cụm nhỏ hơn nhưng có lẽ bạn có thể thử điều này với một số dữ liệu được tạo và xem nếu hoạt động?

Ngoài ra, bạn có thể kiểm tra giấy này-

http://www.scTHERirect.com/science/article/pii/0377042787901257

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.