Sử dụng phương tiện k với các số liệu khác


8

Vì vậy, tôi nhận ra điều này đã được hỏi trước đây: ví dụ: các trường hợp sử dụng liên quan đến phân tích cụm của các số liệu khoảng cách khác nhau là gì? nhưng tôi đã tìm thấy những câu trả lời hơi mâu thuẫn với những gì được đề xuất nên có trong tài liệu.

Gần đây tôi đã đọc hai bài báo có đề cập đến việc sử dụng thuật toán kmeans với các số liệu khác, ví dụ: chỉnh sửa khoảng cách giữa các chuỗi và "Khoảng cách di chuyển trái đất" giữa các bản phân phối. Cho rằng các bài báo này đề cập đến việc sử dụng kmeans với các số liệu khác mà không chỉ định cách thức , đặc biệt là khi tính toán giá trị trung bình của các điểm, gợi ý cho tôi rằng có thể có một số phương pháp "tiêu chuẩn" để xử lý vấn đề này mà tôi không chọn trên.

Lấy ví dụ bài báo này , cho phép triển khai nhanh hơn thuật toán k-mean. Trích dẫn từ đoạn 4 trong phần giới thiệu, tác giả cho biết thuật toán của ông "có thể được sử dụng với bất kỳ số liệu khoảng cách hộp đen nào" và trong đoạn tiếp theo, ông đề cập đến khoảng cách chỉnh sửa là một ví dụ cụ thể. Tuy nhiên, thuật toán của anh ta vẫn tính trung bình của một tập hợp các điểm và không đề cập đến việc điều này có thể ảnh hưởng đến kết quả như thế nào với các số liệu khác (tôi đặc biệt bối rối về việc làm thế nào có nghĩa là sẽ hoạt động với khoảng cách chỉnh sửa).

Bài báo khác này mô tả việc sử dụng phương tiện k để phân cụm các ván bài poker cho một sự trừu tượng hóa giữ texas. Nếu bạn nhảy đến trang 2 dưới cùng của cột bên trái, tác giả sẽ viết "và sau đó phương tiện k được sử dụng để tính toán một sự trừu tượng với số cụm mong muốn bằng cách sử dụng Khoảng cách giữa các cặp biểu đồ làm chỉ số khoảng cách".

Tôi không thực sự tìm kiếm ai đó để giải thích những giấy tờ này cho tôi, nhưng tôi có thiếu một số phương pháp tiêu chuẩn để sử dụng phương tiện k với các số liệu khác không? Tính trung bình tiêu chuẩn với khoảng cách động đất có vẻ như có thể hoạt động theo phương pháp heuristur, nhưng khoảng cách chỉnh sửa dường như không phù hợp với khuôn mẫu. Tôi đánh giá cao bất kỳ cái nhìn sâu sắc ai đó có thể cung cấp.

(chỉnh sửa) : Tôi đã tiếp tục và thử phương tiện k trên biểu đồ phân phối bằng khoảng cách động đất (tương tự như trong bài xì phé) và nó dường như đã hoạt động tốt, các cụm mà nó tạo ra trông khá tốt cho trường hợp sử dụng của tôi. Để tính trung bình, tôi chỉ coi biểu đồ là vectơ và tính trung bình theo cách thông thường. Một điều mà tôi nhận thấy là tổng trên tất cả các điểm của khoảng cách đến phương tiện không phải lúc nào cũng giảm theo cách đơn điệu. Trong thực tế, nó sẽ giải quyết trên một phút cục bộ trong vòng 10 lần lặp mặc dù các vấn đề đơn điệu. Tôi sẽ giả định rằng đây là những gì họ đã làm trong bài báo thứ hai, câu hỏi duy nhất còn lại là, làm thế nào bạn sẽ trung bình khi sử dụng một cái gì đó như khoảng cách chỉnh sửa?


Liên kết thứ 2 nhân đôi số 1.
ttnphns

Scooby Cảm ơn các liên kết thú vị. Bài báo đầu tiên (mà tôi vừa xem qua) mô tả một phương pháp / thuật toán phân cụm mới (được cho là) ​​dựa trên ý tưởng về bất đẳng thức tam giác của một số liệu. Đó không phải là ý nghĩa của mọi người theo thuật ngữ / thuật toán k-Means. Vì vậy, tiêu đề của bài viết là hơi sai lệch, đối với tôi. Phương pháp phân cụm "bất đẳng thức tam giác" được đề xuất, khi được áp dụng cho số liệu khoảng cách Euclide, sẽ cho kết quả giống với phương pháp "K-mean" sẽ đưa ra, như tác giả tuyên bố.
ttnphns

Theo nghĩa chặt chẽ của nó, thủ tục K-mean ngụ ý (1) các đối tượng bởi (số) tính năng ma trận đầu vào; (2) phân định lại các đối tượng cho các cụm bằng cách tính khoảng cách Euclide giữa các đối tượng và trung tâm cụm (là các phương tiện cụm ). Mọi thứ ở trên hoặc vượt qua điều đó - ví dụ: phân tích ma trận khoảng cách theo cặp hoặc sử dụng số liệu khác ngoài Euclide hoặc tính toán hình thức trung tâm khác ngoài trung bình, v.v. - mở rộng hoặc sửa đổi phương tiện K để nó không trở thành phương tiện k trong ý nghĩa ban đầu.
ttnphns

1
@ttnphns Tôi không đồng ý với (2). Đó là thuật toán Lloyds, không phải là phương tiện k chung. K-mean nói chung có nghĩa là tối thiểu hóa mục tiêu tổng bình phương-phân vùng. Những gì bạn mô tả là mô hình tối đa hóa kỳ vọng chung (EM); và Lloyds là mẫu EM cho các mô hình bình phương nhỏ nhất.
Có QUIT - Anony-Mousse

Câu trả lời:


4

Không phải là nếu phương tiện k nhất thiết sẽ nổ tung và thất bại nếu bạn sử dụng một số liệu khác.

Trong nhiều trường hợp nó sẽ trả về một số kết quả . Nó chỉ không được đảm bảo rằng nó tìm thấy các centroid hoặc phân vùng tối ưu với các số liệu khác, bởi vì giá trị trung bình có thể không phù hợp để giảm thiểu khoảng cách.

Hãy xem xét khoảng cách động đất. Cho ba vectơ

3 0 0 0 0
0 0 3 0 0
0 0 0 0 3

Trung bình số học là

1 0 1 0 1

trong đó có khoảng cách EMD 6, 4, 6 (tổng 16). Nếu thuật toán đã sử dụng thay thế

0 0 3 0 0

khoảng cách EMD sẽ là 6, 0, 6; tức là tốt hơn (tổng 12).

Giá trị trung bình số học không giảm thiểu EMD và kết quả của việc sử dụng phương tiện k (với trung bình số học) sẽ không mang lại đại diện tối ưu.

Những điều tương tự sẽ giữ cho khoảng cách chỉnh sửa.


Tôi không chắc chắn nếu tôi làm theo cách bạn tính toán khoảng cách EMD. Theo hiểu biết của tôi, bạn cần một ma trận chuyển tiếp với trọng số để chuyển từ tính năng này sang tính năng khác.
sffc

1
Chọn ma trận chính tắc như vậy, từ động lực ban đầu: trái đất chuyển động, với chi phí = khoảng cách.
Có QUIT - Anony-Mousse

2

Phương tiện K thích hợp để sử dụng kết hợp với khoảng cách Euclide vì mục tiêu chính của phương tiện k là tối thiểu hóa tổng phương sai trong cụm và phương sai trong cụm được tính chính xác theo cách tương tự như tổng của Euclide khoảng cách giữa tất cả các điểm trong cụm đến trung tâm cụm. Như các câu trả lời khác chỉ ra , thuật toán chỉ được đảm bảo hội tụ (ngay cả khi ở mức tối thiểu cục bộ) nếu cả bước cập nhật centroid và bước xác định lại điểm dữ liệu được thực hiện trong cùng một không gian Euclide n chiều .

Ngoài ra, nó đã được hiển thị (và tôi đặt một liên kết ở đây vì bản thân tôi không thể giải thích điều này) rằng giá trị trung bình là công cụ ước tính tốt nhất được sử dụng khi cần giảm thiểu tổng phương sai . Vì vậy, k-mean liên kết với khoảng cách Euclide là hai lần: thuật toán phải có một số cách để tính giá trị trung bình của một tập hợp các điểm dữ liệu (do đó tên k- có nghĩa ), nhưng điều này chỉ có ý nghĩa và đảm bảo sự hội tụ của quá trình phân cụm nếu khoảng cách Euclide được sử dụng để gán lại các điểm dữ liệu cho các tâm gần nhất.

Bạn vẫn có thể sử dụng phương tiện k với các thước đo khoảng cách khác, như trong bài báo này , trong đó tác giả sử dụng thuật toán với khoảng cách Minkowski, đó là sự khái quát của khoảng cách Manhattan, Euclidean và Ch Quashev. Tuy nhiên, trong những trường hợp này, sự hội tụ không được đảm bảo và do đó, bạn có thể mong đợi rằng các lần lặp lại trong tương lai của thuật toán sẽ thực sự có tổng phương sai lớn hơn các lần lặp trước.

LpL2L1Lp0<p1

Cuối cùng, tôi nghĩ thật thú vị khi chỉ ra rằng có một số biện pháp tương tự có thể được chuyển đổi thành khoảng cách Euclide theo cách nào đó, theo cách mà nếu bạn sử dụng biện pháp tương tự đã nói kết hợp với phương tiện k, bạn nên lấy kết quả tương tự. Một ví dụ về điều đó là sự tương tự cosin .


1
Lp cho p <1 không phải là một chỉ tiêu.
Có QUIT - Anony-Mousse

1

Tôi không biết đây có phải là những gì các bài báo được liên kết đang làm hay không, nhưng có thể thực hiện phương tiện k với các hàm khoảng cách không phải là Euclide bằng cách sử dụng thủ thuật kernel . Đó là, chúng tôi ngầm ánh xạ các đầu vào vào một không gian chiều cao (thường là vô hạn) trong đó khoảng cách Euclide tương ứng với hàm khoảng cách chúng tôi muốn sử dụng và chạy thuật toán ở đó. Đối với thuật toán k-mean của Lloyd nói riêng, chúng ta có thể dễ dàng gán điểm cho các cụm của chúng, nhưng chúng ta đại diện cho các trung tâm cụm một cách ngầm định và việc tìm đại diện của chúng trong không gian đầu vào sẽ yêu cầu tìm trung bình Fréchet . Bài viết sau đây thảo luận về thuật toán và liên kết nó với phân cụm phổ:

I. Dhillon, Y. Guan và B. Kulis. Kernel có nghĩa là, Phân cụm phổ và Cắt bình thường. KDD 2005.

Có các hạt nhân dựa trên khoảng cách chỉnh sửadựa trên khoảng cách của người di chuyển trái đất .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.