Câu trả lời của Serge chứa điểm quan trọng, đó là hệ số bóng định lượng chất lượng phân cụm đạt được - vì vậy bạn nên chọn số lượng cụm tối đa hóa hệ số bóng.
Câu trả lời dài là cách tốt nhất để đánh giá kết quả của các nỗ lực phân cụm của bạn là bắt đầu bằng cách thực sự kiểm tra - kiểm tra con người - các cụm được hình thành và đưa ra quyết định dựa trên sự hiểu biết về những gì dữ liệu đại diện, những gì một cụm đại diện, và những gì cụm được dự định để đạt được.
Có nhiều phương pháp định lượng để đánh giá kết quả phân cụm nên được sử dụng làm công cụ, với sự hiểu biết đầy đủ về các hạn chế. Chúng có xu hướng khá trực quan trong tự nhiên, và do đó có sức hấp dẫn tự nhiên (như các vấn đề phân cụm nói chung).
Ví dụ: khối lượng / bán kính / mật độ cụm, sự gắn kết hoặc phân tách giữa các cụm, v.v ... Những khái niệm này thường được kết hợp, ví dụ, tỷ lệ phân tách cho sự gắn kết phải lớn nếu phân cụm thành công.
Cách phân cụm được đo được thông báo bằng loại thuật toán phân cụm được sử dụng. Ví dụ, đo chất lượng của thuật toán phân cụm hoàn chỉnh (trong đó tất cả các điểm được đặt vào cụm) có thể rất khác so với chất lượng đo của thuật toán phân cụm mờ dựa trên ngưỡng (trong đó một số điểm có thể không được phân cụm thành 'nhiễu' ).
Hệ số bóng là một trong những biện pháp như vậy. Nó hoạt động như sau:
Đối với mỗi điểm p, trước tiên hãy tìm khoảng cách trung bình giữa p và tất cả các điểm khác trong cùng một cụm (đây là thước đo độ gắn kết, gọi nó là A). Sau đó tìm khoảng cách trung bình giữa p và tất cả các điểm trong cụm gần nhất (đây là thước đo tách khỏi cụm khác gần nhất, gọi nó là B). Hệ số hình bóng cho p được định nghĩa là sự khác biệt giữa B và A chia cho lớn hơn của hai (max (A, B)).
Chúng tôi đánh giá hệ số cụm của từng điểm và từ đó chúng tôi có thể có được hệ số cụm trung bình 'tổng thể'.
Theo trực giác, chúng tôi đang cố gắng đo không gian giữa các cụm. Nếu sự gắn kết cụm là tốt (A nhỏ) và tách cụm là tốt (B lớn), tử số sẽ lớn, v.v.
Tôi đã xây dựng một ví dụ ở đây để chứng minh điều này bằng đồ họa.
Trong các ô này, dữ liệu tương tự được vẽ năm lần; màu sắc biểu thị các cụm được tạo bởi phân cụm k-nghĩa, với k = 1,2,3,4,5. Đó là, tôi đã buộc một thuật toán phân cụm để chia dữ liệu thành 2 cụm, sau đó 3, v.v. và tô màu cho biểu đồ tương ứng.
Biểu đồ hình bóng cho thấy hệ số hình bóng cao nhất khi k = 3, cho thấy đó là số cụm tối ưu. Trong ví dụ này, chúng tôi may mắn có thể trực quan hóa dữ liệu và chúng tôi có thể đồng ý rằng thực sự, ba cụm nắm bắt tốt nhất phân đoạn của tập dữ liệu này.
Nếu chúng tôi không thể hình dung được dữ liệu, có lẽ vì tính chiều cao hơn, một âm mưu hình bóng vẫn sẽ cho chúng tôi một gợi ý. Tuy nhiên, tôi hy vọng câu trả lời hơi dài dòng của tôi ở đây cũng đưa ra quan điểm rằng "gợi ý" này có thể rất thiếu hoặc chỉ đơn giản là sai trong một số tình huống nhất định.