Vì vậy, tôi nhận ra điều này đã được hỏi trước đây: ví dụ: các trường hợp sử dụng liên quan đến phân tích cụm của các số liệu khoảng cách khác nhau là gì? nhưng tôi đã tìm thấy những câu trả lời hơi mâu thuẫn với những gì được đề xuất nên có trong tài liệu.
Gần đây tôi đã đọc hai bài báo có đề cập đến việc sử dụng thuật toán kmeans với các số liệu khác, ví dụ: chỉnh sửa khoảng cách giữa các chuỗi và "Khoảng cách di chuyển trái đất" giữa các bản phân phối. Cho rằng các bài báo này đề cập đến việc sử dụng kmeans với các số liệu khác mà không chỉ định cách thức , đặc biệt là khi tính toán giá trị trung bình của các điểm, gợi ý cho tôi rằng có thể có một số phương pháp "tiêu chuẩn" để xử lý vấn đề này mà tôi không chọn trên.
Lấy ví dụ bài báo này , cho phép triển khai nhanh hơn thuật toán k-mean. Trích dẫn từ đoạn 4 trong phần giới thiệu, tác giả cho biết thuật toán của ông "có thể được sử dụng với bất kỳ số liệu khoảng cách hộp đen nào" và trong đoạn tiếp theo, ông đề cập đến khoảng cách chỉnh sửa là một ví dụ cụ thể. Tuy nhiên, thuật toán của anh ta vẫn tính trung bình của một tập hợp các điểm và không đề cập đến việc điều này có thể ảnh hưởng đến kết quả như thế nào với các số liệu khác (tôi đặc biệt bối rối về việc làm thế nào có nghĩa là sẽ hoạt động với khoảng cách chỉnh sửa).
Bài báo khác này mô tả việc sử dụng phương tiện k để phân cụm các ván bài poker cho một sự trừu tượng hóa giữ texas. Nếu bạn nhảy đến trang 2 dưới cùng của cột bên trái, tác giả sẽ viết "và sau đó phương tiện k được sử dụng để tính toán một sự trừu tượng với số cụm mong muốn bằng cách sử dụng Khoảng cách giữa các cặp biểu đồ làm chỉ số khoảng cách".
Tôi không thực sự tìm kiếm ai đó để giải thích những giấy tờ này cho tôi, nhưng tôi có thiếu một số phương pháp tiêu chuẩn để sử dụng phương tiện k với các số liệu khác không? Tính trung bình tiêu chuẩn với khoảng cách động đất có vẻ như có thể hoạt động theo phương pháp heuristur, nhưng khoảng cách chỉnh sửa dường như không phù hợp với khuôn mẫu. Tôi đánh giá cao bất kỳ cái nhìn sâu sắc ai đó có thể cung cấp.
(chỉnh sửa) : Tôi đã tiếp tục và thử phương tiện k trên biểu đồ phân phối bằng khoảng cách động đất (tương tự như trong bài xì phé) và nó dường như đã hoạt động tốt, các cụm mà nó tạo ra trông khá tốt cho trường hợp sử dụng của tôi. Để tính trung bình, tôi chỉ coi biểu đồ là vectơ và tính trung bình theo cách thông thường. Một điều mà tôi nhận thấy là tổng trên tất cả các điểm của khoảng cách đến phương tiện không phải lúc nào cũng giảm theo cách đơn điệu. Trong thực tế, nó sẽ giải quyết trên một phút cục bộ trong vòng 10 lần lặp mặc dù các vấn đề đơn điệu. Tôi sẽ giả định rằng đây là những gì họ đã làm trong bài báo thứ hai, câu hỏi duy nhất còn lại là, làm thế nào bạn sẽ trung bình khi sử dụng một cái gì đó như khoảng cách chỉnh sửa?