Kết quả bất lợi của tiêu chí phân cụm


8

Tôi đã thực hiện một cụm các điểm tọa độ (kinh độ, vĩ độ) và thấy kết quả bất lợi, đáng ngạc nhiên từ các tiêu chí phân cụm cho số lượng cụm tối ưu. Các tiêu chí được lấy từ clusterCrit()gói. Các điểm mà tôi đang cố gắng phân cụm trên một âm mưu (các đặc điểm địa lý của tập dữ liệu được hiển thị rõ ràng):

Âm mưu của tất cả các quan sát

Thủ tục đầy đủ như sau:

  1. Thực hiện phân cụm theo thứ bậc trên 10k điểm và lưu lại các huy chương cho các cụm 2: 150.
  2. Lấy các medoid từ (1) làm hạt giống cho các km quan sát cụm 163k.
  3. Đã kiểm tra 6 tiêu chí phân cụm khác nhau cho số lượng cụm tối ưu.

Chỉ có 2 tiêu chí phân cụm cho kết quả có ý nghĩa đối với tôi - tiêu chí Silhouette và Davies-Bouldin. Đối với cả hai người ta nên tìm kiếm tối đa trên cốt truyện. Có vẻ như cả hai đều đưa ra câu trả lời Cụm 22 là một số tốt. Đối với các biểu đồ bên dưới: trên trục x là số cụm và trên trục y giá trị của tiêu chí, xin lỗi vì các mô tả sai trên hình ảnh. Silhouette và Davies-Bouldin tương ứng:

Âm mưu tiêu chí Silhoette Âm mưu tiêu chí Davies-Bouldin

Bây giờ hãy xem các giá trị Calinski-Harabasz và Log_SS. Tối đa là được tìm thấy trên cốt truyện. Biểu đồ chỉ ra rằng giá trị càng cao thì phân cụm càng tốt. Sự tăng trưởng ổn định như vậy là khá đáng ngạc nhiên, tôi nghĩ 150 cụm đã là một con số khá cao. Bên dưới các ô cho các giá trị Calinski-Harabasz và Log_SS tương ứng.

Âm mưu tiêu chí Calinski-Harabasz Lô tiêu chí Log_SS

Bây giờ cho phần đáng ngạc nhiên nhất hai tiêu chí cuối cùng. Đối với Ball-Hall, sự khác biệt lớn nhất giữa hai cụm là mong muốn và đối với Ratkowsky-Lance tối đa. Các lô Ball-Hall và Ratkowsky-Lance tương ứng:

Âm mưu tiêu chuẩn Ball-Hall Âm mưu tiêu chí Ratkowsky-Lance

Hai tiêu chí cuối cùng đưa ra câu trả lời hoàn toàn bất lợi (số cụm càng nhỏ càng tốt) so với tiêu chí thứ 3 và thứ 4. Làm thế nào là có thể? Đối với tôi có vẻ như chỉ có hai tiêu chí đầu tiên có thể có ý nghĩa của việc phân cụm. Độ rộng Silhouette khoảng 0,6 không phải là xấu. Tôi có nên bỏ qua các chỉ số đưa ra câu trả lời lạ và tin vào những người đưa ra câu trả lời hợp lý?

Chỉnh sửa: Âm mưu cho 22 cụmGiải pháp 22 cụm


Biên tập

Bạn có thể thấy rằng dữ liệu được phân cụm khá độc đáo trong 22 nhóm, vì vậy các tiêu chí chỉ ra rằng bạn nên chọn 2 cụm dường như có điểm yếu, heuristic không hoạt động đúng. Sẽ ổn khi tôi có thể vẽ dữ liệu hoặc khi dữ liệu có thể được đóng gói trong ít hơn 4 thành phần chính và sau đó được vẽ. Nhưng nếu không? Làm thế nào tôi nên chọn số lượng cụm khác hơn là sử dụng một tiêu chí? Tôi đã thấy các xét nghiệm chỉ ra Calinski và Ratkowsky là các tiêu chí rất tốt và chúng vẫn cho kết quả bất lợi cho một tập dữ liệu có vẻ dễ dàng. Vì vậy, có lẽ câu hỏi không nên là "tại sao kết quả lại khác nhau" nhưng "chúng ta có thể tin tưởng những tiêu chí đó đến mức nào?".

Tại sao một số liệu euclidian không tốt? Tôi không thực sự quan tâm đến khoảng cách thực tế, chính xác giữa họ. Tôi hiểu khoảng cách thực sự là hình cầu nhưng với tất cả các điểm A, B, C, D nếu Spheric (A, B)> Spheric (C, D) hơn cả Euclidian (A, B)> Euclidian (C, D) đủ cho một số liệu phân cụm.

Tại sao tôi muốn phân cụm những điểm đó? Tôi muốn xây dựng một mô hình dự đoán và có rất nhiều thông tin chứa trong vị trí của mỗi quan sát. Đối với mỗi quan sát tôi cũng có thành phố và khu vực. Nhưng có quá nhiều thành phố khác nhau và tôi không muốn đưa ra ví dụ 5000 biến nhân tố; do đó tôi nghĩ về việc phân cụm chúng theo tọa độ. Nó hoạt động khá tốt vì mật độ ở các khu vực khác nhau là khác nhau và thuật toán tìm thấy nó, 22 biến nhân tố sẽ ổn. Tôi cũng có thể đánh giá mức độ tốt của việc phân cụm bằng kết quả của mô hình dự đoán nhưng tôi không chắc liệu đây có phải là tính toán khôn ngoan hay không. Cảm ơn các thuật toán mới, tôi chắc chắn sẽ thử chúng nếu chúng hoạt động nhanh trên các tập dữ liệu khổng lồ.


Bạn có thể hình dung kết quả phân cụm tại 22 cụm, xin vui lòng?
Có QUIT - Anony-Mousse

Phương pháp nào bạn đã sử dụng cho phân cụm phân cấp? Điều đó có thể ảnh hưởng đáng kể đến kết quả bạn nhận được?
Hồng Ooi

Helo Hong, tôi đã sử dụng phương pháp "diana" với khoảng cách eidianidian nên là khoảng cách hợp lý cho tọa độ. Ngoài ra, giải pháp 22 cụm âm mưu có vẻ khá hợp lý với tôi.
Karol Przybylak

Cảm ơn câu trả lời của bạn và lời khuyên của bạn Anony-Mousse. Xem chỉnh sửa của tôi.
Karol Przybylak

Vâng, bạn có thể cập nhật câu hỏi của bạn. so sánh kết quả để nói, agnes với 15 cụm và agnes với 30 cụm. Mặc dù các clusers là lồi, tôi không tin rằng đây là tất cả những gì bạn cần để có các cụm "đẹp". Khi nào một kết quả phân cụm là tốt? Có hàng triệu kết quả lồi có thể.
Có QUIT - Anony-Mousse

Câu trả lời:


6

Câu hỏi bạn nên tự hỏi mình là: bạn muốn đạt được điều gì .

Tất cả những tiêu chí này không có gì ngoài heuristic . Bạn đánh giá kết quả của một kỹ thuật tối ưu hóa toán học bằng một chức năng toán học khác. Điều này không thực sự đo lường nếu kết quả là tốt , mà chỉ là liệu dữ liệu có phù hợp với các giả định nhất định hay không.

Bây giờ kể từ khi bạn có một bộ dữ liệu toàn cầu trong vĩ độ và kinh độ Euclide quãng đường thực tế là đã không phải là một lựa chọn tốt. Tuy nhiên, một số tiêu chí và thuật toán (k-nghĩa là) cần chức năng khoảng cách không phù hợp này.

Một số điều bạn nên thử:

  • Các thuật toán tốt hơn. Hãy thử DBSCANOPTICS , cả hai đều không yêu cầu bạn chỉ định số lượng cụm! Chúng có các tham số khác, nhưng ví dụ khoảng cáchsố điểm tối thiểu sẽ dễ dàng hơn nhiều để đặt cho tập dữ liệu này.
  • Hình dung. Thay vì nhìn vào số liệu thống kê của một số biện pháp toán học, hãy chọn kết quả tốt nhất bằng cách kiểm tra trực quan ! Vì vậy, trước hết, hãy hình dung các cụm để xem kết quả có ý nghĩa gì không.
  • Hãy xem xét những gì bạn muốn tìm. Một tiêu chí toán học sẽ rất vui nếu bạn tách rời các châu lục. Nhưng bạn không cần một thuật toán để làm điều này, các lục địa đã khá nổi tiếng rồi! Vậy điều gì làm bạn muốn khám phá?
  • Loại bỏ các ngoại lệ. Cả cụm phương tiện k và phân cấp phân cấp đều không thích các ngoại lệ nhiều như vậy và bạn có thể cần tăng số lượng cụm tìm thấy theo số lượng ngoại lệ trong dữ liệu (DBSCAN và OPTICS được đề cập ở trên mạnh hơn nhiều so với các ngoại lệ).
  • Chức năng khoảng cách thích hợp hơn. Trái đất xấp xỉ hình cầu, sử dụng khoảng cách vòng tròn lớn thay vì khoảng cách Euclide.
  • Hãy thử chuyển đổi dữ liệu thành hệ tọa độ 3D ECEF , nếu bạn cần sử dụng khoảng cách Euclide. Điều này sẽ mang lại các trung tâm cụm nằm dưới bề mặt trái đất, nhưng nó sẽ cho phép phân cụm Alaska và khoảng cách euclide ít nhất là giới hạn dưới của khoảng cách bề mặt thực.

Có một cái nhìn ví dụ như câu hỏi / câu trả lời liên quan này trên stackoverflow .


0

Kinh độ và vĩ độ là các góc xác định các điểm trên một hình cầu, do đó bạn có thể nên nhìn vào Khoảng cách Vòng tròn Lớn hoặc các khoảng cách trắc địa khác giữa các điểm thay vì khoảng cách Euclide.

Cũng như đã được đề cập, một số thuật toán phân cụm dựa trên mô hình rõ ràng như mô hình hỗn hợp và các thuật toán dựa trên mô hình ngầm như K-mean, đưa ra các giả định về hình dạng và kích thước của cụm. Trong tình huống này, bạn có mong đợi dữ liệu của mình phù hợp với một mô hình cơ bản không? Nếu không thì các phương pháp dựa trên mật độ không đưa ra các giả định về hình dạng / kích thước của các cụm có thể phù hợp hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.