Tại sao chỉ có giá trị trung bình được sử dụng trong phương pháp phân cụm (K-mean)?

Trong các phương pháp phân cụm như K- mean, khoảng cách euclide là số liệu cần sử dụng. Do đó, chúng tôi chỉ tính các giá trị trung bình trong mỗi cụm. Và sau đó điều chỉnh được thực hiện trên các yếu tố dựa trên khoảng cách của chúng với từng giá trị trung bình.

Tôi đã tự hỏi tại sao hàm Gaussian không được sử dụng làm số liệu? Thay vì sử dụng xi -mean(X), chúng ta có thể sử dụng exp(- (xi - mean(X)).^2/std(X).^2). Do đó, không chỉ độ tương tự giữa các cụm được đo (trung bình), mà độ tương tự trong cụm cũng được xem xét (std). Đây có phải cũng tương đương với mô hình hỗn hợp Gaussian ?

Nó nằm ngoài câu hỏi của tôi ở đây nhưng tôi nghĩ rằng sự thay đổi trung bình có thể phát sinh cùng một câu hỏi ở trên.

— lennon 310
nguồn

Chủ đề này có thể hữu ích. stats.stackexchange.com/questions/76866/ Tìm kiếm thẻ của bạn cho các câu hỏi khác có liên quan.

— DL Dahly

@DLDahly Cảm ơn bạn Dahly. Chúng ta có thể xem GMM dựa trên EM như một phương tiện k có trọng số (với các trọng số khác nhau về phương sai) không?

— lennon 310

Đó không phải là cách tôi nghĩ về nó; đúng hơn, tôi thấy k-có nghĩa là một GMM trong đó phương sai bị ràng buộc bằng không.

— DL Dahly

Câu trả lời:

Có hàng ngàn biến thể k-nghĩa . Bao gồm phép gán mềm, phương sai và hiệp phương sai (thường được gọi là thuật toán mô hình hỗn hợp Gaussian hoặc thuật toán EM).

Tuy nhiên, tôi muốn chỉ ra một vài điều:

K-mean không dựa trên khoảng cách Euclide. Nó dựa trên sự giảm thiểu phương sai . Vì phương sai là tổng của khoảng cách Euclide bình phương, nên phép gán phương sai tối thiểu là phương sai có Euclide bình phương nhỏ nhất và hàm căn bậc hai là đơn điệu. Vì lý do hiệu quả, thực sự thông minh hơn khi không tính khoảng cách Euclide (nhưng sử dụng các hình vuông)
Nếu bạn cắm một hàm khoảng cách khác vào k-có nghĩa là nó có thể ngừng hội tụ. Bạn cần giảm thiểu cùng một tiêu chí trong cả hai bước ; bước thứ hai là tính toán lại các phương tiện. Ước tính trung tâm sử dụng trung bình số học là một ước lượng bình phương nhỏ nhất và nó sẽ giảm thiểu phương sai. Vì cả hai hàm đều giảm thiểu phương sai, nên phương tiện k phải hội tụ. Nếu bạn muốn đảm bảo hội tụ với các khoảng cách khác, hãy sử dụng PAM (phân vùng xung quanh các medoid. Các medoid giảm thiểu khoảng cách trong cụm cho các hàm khoảng cách tùy ý.)

Nhưng cuối cùng, phương tiện k và tất cả các biến thể của nó là IMHO tối ưu hóa hơn (hay chính xác hơn là thuật toán lượng tử hóa vectơ ) hơn là thuật toán phân tích cụm. Họ sẽ không thực sự "khám phá" cấu trúc. Họ sẽ massage dữ liệu của bạn vào k phân vùng. Nếu bạn cung cấp cho họ dữ liệu thống nhất, không có cấu trúc nào ngoài tính ngẫu nhiên, k-mean vẫn sẽ tìm thấy tuy nhiên nhiều "cụm" bạn muốn nó tìm thấy. k-mean hài lòng với kết quả trả về cơ bản là ngẫu nhiên .

— Có QUIT - Anony-Mousse
nguồn

+1. Tuy nhiên, tuyên bố rằng K-nghĩa không phải là một cụm dường như quá triệt để, quá quan điểm "khai thác dữ liệu". Trong lịch sử K-nghĩa là phân tích cụm partinioning cổ điển. Thực tế là nó vui vẻ phân vùng dữ liệu "không có cấu trúc" không loại trừ nó khỏi miền phân cụm: nhiều loại phân tích có thể, do đó, để nói, sử dụng sai và cho kết quả ngớ ngẩn.

— ttnphns

Một điểm nữa: K-means is not based on Euclidean distancekhông đủ chỗ rõ ràng trong câu trả lời của bạn. Bạn và tôi đã có các cuộc thảo luận về nó trong quá khứ và tôi đã chỉ ra rằng giảm thiểu phương sai có liên quan đến tổng số euclidean theo cặp trong cụm d ^ 2.

— ttnphns

Tôi rõ ràng nói rõ mối quan hệ với khoảng cách Euclide thông qua phương sai. Vấn đề là, bạn cần thay thế phương sai bằng một biện pháp khác (sau đó chọn gán và cập nhật cho phù hợp), không trao đổi Euclide và hy vọng giá trị trung bình vẫn còn có ý nghĩa.

— Có QUIT - Anony-Mousse

Trong lịch sử, k-mean được Lloyd xuất bản là "Lượng tử hóa bình phương nhỏ nhất trong PCM". Tương tự, Steinhaus có mong muốn thực hiện lượng tử hóa. Điều này giải thích độc đáo tại sao SSQ được sử dụng, vì SSQ là lỗi bình phương của sự rời rạc. MacQueen đề cập đến phân tích cụm như là một ứng dụng của thuật toán, nhưng đề nghị sử dụng một phiên bản sửa đổi của thuật toán có thể thêm hoặc xóa các cụm như mong muốn (tại thời điểm đó, nó thực sự bắt đầu nhiều hơn định lượng).

— Có QUIT - Anony-Mousse

Điểm cuối cùng tôi đang cố gắng thực hiện là xem xét lượng tử hóa vectơ , không chỉ là "phân cụm", vì nghiên cứu phân cụm gần đây bị chi phối bởi quan điểm khai thác dữ liệu (và phần lớn thời gian không còn dựa trên phương tiện k nữa) . Lượng tử hóa vector có thể là thuật ngữ tìm kiếm tốt hơn (vì chính xác hơn nhiều) .

— Có QUIT - Anony-Mousse

Có rất nhiều kỹ thuật phân cụm khác nhau, và K-nghĩa chỉ là một cách tiếp cận. Như DL Dahly đã nhận xét, thuật toán EM có thể được sử dụng để phân cụm theo nhiều cách bạn mô tả. Điều đáng chú ý là sự khác biệt chính giữa phương tiện K và sử dụng EM với mô hình hỗn hợp guassian để phân cụm là hình dạng của các cụm: trung tâm vẫn sẽ gần đúng trung bình của các điểm trong nhóm, nhưng phương tiện K sẽ cho cụm hình cầu trong khi một hạt nhân gaussian sẽ cho một ellipsoid.

Phân cụm phân cấp sử dụng một cách tiếp cận hoàn toàn khác nhau. Phân cụm dựa trên mật độ được thúc đẩy bởi một heuristic tương tự như phân cụm dựa trên trung bình, nhưng rõ ràng cho kết quả khác nhau. Có rất nhiều kỹ thuật phân cụm không xem xét bất kỳ loại trung bình nào.

Thực sự khi nói đến nó, sự lựa chọn của thuật toán là một chức năng của miền vấn đề và thử nghiệm (tức là xem những gì hoạt động).

— David Marx
nguồn

Cảm ơn bạn David. Tôi đoán Phân cấp cho kết quả khác nhau từ kmeans vì định nghĩa khoảng cách giữa hai cụm không giống nhau. Có thể không dễ để xác định nên sử dụng số liệu nào và có nên đưa vào phương sai hay không. Có vẻ như các nhóm người khác nhau đã phát triển các số liệu của riêng họ về vấn đề của riêng họ. Phương pháp này chỉ mang lại kết quả tốt như vậy, nhưng nó thiếu sự hỗ trợ về mặt lý thuyết cho tùy chọn phương pháp phân cụm.

— lennon 310