Thật khó để cung cấp một giải pháp rõ ràng về cách chọn số cụm "tốt nhất" trong dữ liệu của bạn, bất kể phương pháp phân cụm nào bạn sử dụng, bởi vì Phân tích cụm tìm cách cô lập các nhóm đơn vị thống kê (cho dù đó là cá nhân hay biến số ) cho mục đích thăm dò hoặc mô tả, về cơ bản. Do đó, bạn cũng phải giải thích đầu ra của sơ đồ phân cụm của bạn và một số giải pháp cụm có thể thú vị như nhau.
Bây giờ, liên quan đến các tiêu chí thống kê thông thường được sử dụng để quyết định khi nào nên dừng để tổng hợp dữ liệu, như được chỉ ra bởi @ars hầu hết là các tiêu chí hướng dẫn trực quan , bao gồm phân tích dendrogram hoặc kiểm tra hồ sơ cụm, còn được gọi là sơ đồ hình bóng (Rousseeuw, 1987) . Một số tiêu chí số , còn được gọi là chỉ số hiệu lực, cũng được đề xuất, ví dụ như chỉ số hiệu lực của Dunn, chỉ số hợp lệ của Davies-Bouldin, chỉ số C, gamma của Hubert, để nêu tên một số. Phân cụm theo phân cấp thường được chạy cùng với phương tiện k (trên thực tế, một số trường hợp của phương tiện k vì nó là thuật toán ngẫu nhiên), do đó, nó hỗ trợ thêm cho các giải pháp phân cụm được tìm thấy. Tôi không biết liệu tất cả những thứ này có sẵn trong Python hay không, nhưng một số lượng lớn các phương thức có sẵn trong R (xem phầnCụmChế độ xem tác vụ , đã được @mbq trích dẫn cho một câu hỏi liên quan, Công cụ nào có thể được sử dụng để áp dụng thuật toán phân cụm trên MovieLens? ). Các cách tiếp cận khác bao gồm phân cụm mờ và phân cụm dựa trên mô hình (còn được gọi là phân tích đặc điểm tiềm ẩn , trong cộng đồng tâm lý học) nếu bạn tìm kiếm cách mạnh mẽ hơn để chọn số lượng cụm trong dữ liệu của mình.
BTW, tôi vừa xem qua trang web này, cụm scipy , một phần mở rộng cho Scipy để tạo, trực quan hóa và phân tích các cụm phân cấp . Có lẽ nó bao gồm các chức năng khác? Tôi cũng đã nghe nói về PyChem cung cấp những thứ khá hay để phân tích đa biến.
Các tài liệu tham khảo sau đây cũng có thể hữu ích:
Steinley, D., & Brusco, MJ (2008). Lựa chọn các biến trong phân tích cụm: Một so sánh thực nghiệm của tám thủ tục. Tâm lý học , 73 , 125-144.