Tôi đã thực hiện một cụm các điểm tọa độ (kinh độ, vĩ độ) và thấy kết quả bất lợi, đáng ngạc nhiên từ các tiêu chí phân cụm cho số lượng cụm tối ưu. Các tiêu chí được lấy từ clusterCrit()
gói. Các điểm mà tôi đang cố gắng phân cụm trên một âm mưu (các đặc điểm địa lý của tập dữ liệu được hiển thị rõ ràng):
Thủ tục đầy đủ như sau:
- Thực hiện phân cụm theo thứ bậc trên 10k điểm và lưu lại các huy chương cho các cụm 2: 150.
- Lấy các medoid từ (1) làm hạt giống cho các km quan sát cụm 163k.
- Đã kiểm tra 6 tiêu chí phân cụm khác nhau cho số lượng cụm tối ưu.
Chỉ có 2 tiêu chí phân cụm cho kết quả có ý nghĩa đối với tôi - tiêu chí Silhouette và Davies-Bouldin. Đối với cả hai người ta nên tìm kiếm tối đa trên cốt truyện. Có vẻ như cả hai đều đưa ra câu trả lời Cụm 22 là một số tốt. Đối với các biểu đồ bên dưới: trên trục x là số cụm và trên trục y giá trị của tiêu chí, xin lỗi vì các mô tả sai trên hình ảnh. Silhouette và Davies-Bouldin tương ứng:
Bây giờ hãy xem các giá trị Calinski-Harabasz và Log_SS. Tối đa là được tìm thấy trên cốt truyện. Biểu đồ chỉ ra rằng giá trị càng cao thì phân cụm càng tốt. Sự tăng trưởng ổn định như vậy là khá đáng ngạc nhiên, tôi nghĩ 150 cụm đã là một con số khá cao. Bên dưới các ô cho các giá trị Calinski-Harabasz và Log_SS tương ứng.
Bây giờ cho phần đáng ngạc nhiên nhất hai tiêu chí cuối cùng. Đối với Ball-Hall, sự khác biệt lớn nhất giữa hai cụm là mong muốn và đối với Ratkowsky-Lance tối đa. Các lô Ball-Hall và Ratkowsky-Lance tương ứng:
Hai tiêu chí cuối cùng đưa ra câu trả lời hoàn toàn bất lợi (số cụm càng nhỏ càng tốt) so với tiêu chí thứ 3 và thứ 4. Làm thế nào là có thể? Đối với tôi có vẻ như chỉ có hai tiêu chí đầu tiên có thể có ý nghĩa của việc phân cụm. Độ rộng Silhouette khoảng 0,6 không phải là xấu. Tôi có nên bỏ qua các chỉ số đưa ra câu trả lời lạ và tin vào những người đưa ra câu trả lời hợp lý?
Chỉnh sửa: Âm mưu cho 22 cụm
Biên tập
Bạn có thể thấy rằng dữ liệu được phân cụm khá độc đáo trong 22 nhóm, vì vậy các tiêu chí chỉ ra rằng bạn nên chọn 2 cụm dường như có điểm yếu, heuristic không hoạt động đúng. Sẽ ổn khi tôi có thể vẽ dữ liệu hoặc khi dữ liệu có thể được đóng gói trong ít hơn 4 thành phần chính và sau đó được vẽ. Nhưng nếu không? Làm thế nào tôi nên chọn số lượng cụm khác hơn là sử dụng một tiêu chí? Tôi đã thấy các xét nghiệm chỉ ra Calinski và Ratkowsky là các tiêu chí rất tốt và chúng vẫn cho kết quả bất lợi cho một tập dữ liệu có vẻ dễ dàng. Vì vậy, có lẽ câu hỏi không nên là "tại sao kết quả lại khác nhau" nhưng "chúng ta có thể tin tưởng những tiêu chí đó đến mức nào?".
Tại sao một số liệu euclidian không tốt? Tôi không thực sự quan tâm đến khoảng cách thực tế, chính xác giữa họ. Tôi hiểu khoảng cách thực sự là hình cầu nhưng với tất cả các điểm A, B, C, D nếu Spheric (A, B)> Spheric (C, D) hơn cả Euclidian (A, B)> Euclidian (C, D) đủ cho một số liệu phân cụm.
Tại sao tôi muốn phân cụm những điểm đó? Tôi muốn xây dựng một mô hình dự đoán và có rất nhiều thông tin chứa trong vị trí của mỗi quan sát. Đối với mỗi quan sát tôi cũng có thành phố và khu vực. Nhưng có quá nhiều thành phố khác nhau và tôi không muốn đưa ra ví dụ 5000 biến nhân tố; do đó tôi nghĩ về việc phân cụm chúng theo tọa độ. Nó hoạt động khá tốt vì mật độ ở các khu vực khác nhau là khác nhau và thuật toán tìm thấy nó, 22 biến nhân tố sẽ ổn. Tôi cũng có thể đánh giá mức độ tốt của việc phân cụm bằng kết quả của mô hình dự đoán nhưng tôi không chắc liệu đây có phải là tính toán khôn ngoan hay không. Cảm ơn các thuật toán mới, tôi chắc chắn sẽ thử chúng nếu chúng hoạt động nhanh trên các tập dữ liệu khổng lồ.