Sử dụng tương quan làm chỉ số khoảng cách (để phân cụm theo phân cấp)


22

Tôi muốn phân cụm phân cấp dữ liệu của mình, nhưng thay vì sử dụng khoảng cách Euclide, tôi muốn sử dụng tương quan. Ngoài ra, vì hệ số tương quan nằm trong khoảng từ -1 đến 1, với cả -1 và 1 biểu thị "đồng quy định" trong nghiên cứu của tôi, tôi đang coi cả -1 và 1 là d = 0. Vì vậy, tính toán của tôi là d=1|r|

Tôi đọc trong một câu hỏi riêng biệt (về k-means clustering), mà bạn nên chuyển đổi r vào đúng Euclide d sử dụng định lý cosin:d=2(1r)

Cách chính xác nhất để chuyển đổi tương quan thành khoảng cách cho phân cụm phân cấp là gì?


3
Vâng, một trong những cách có thể - và theo cách hình học - là công thức cuối cùng. Nhưng bạn có thể bỏ qua dấu hiệu của nếu nó có ý nghĩa đối với bạn, sao cho . Trong hầu hết các trường hợp, bạn có thể giảm cách an toàn mà không ảnh hưởng đến kết quả phân cụm. Khoảng cách có thể được coi là bình phương euclidean. Trong chủ đề này, người ta đã thảo luận liệu các biện pháp tương quan được chuyển đổi khoảng cách có phải là khoảng cách theo hệ mét hay không. rd2=2(1|r|)2
ttnphns

2
Ngoài ra, bạn không phải luôn luôn chuyển đổi thành một sự khác biệt tuyến tính, chẳng hạn như khoảng cách euclide. Không quá hiếm khi mọi người thực hiện phân cụm dựa trực tiếp vào hoặcnhư về sự tương đồng, đó là sự tương đồng về gócrr|r|
ttnphns

Câu trả lời:


21

Yêu cầu cho phân cụm phân cấp

Phân cụm phân cấp có thể được sử dụng với các biện pháp tương tự và khác nhau tùy ý. (Hầu hết các công cụ đều mong đợi sự khác biệt, nhưng sẽ cho phép các giá trị âm - tùy thuộc vào bạn để đảm bảo rằng giá trị nhỏ hay lớn sẽ được ưu tiên.).

Chỉ các phương pháp dựa trên centroid hoặc phương sai (như phương pháp của Ward) là đặc biệt và nên được sử dụng với Euclide bình phương. (Để hiểu lý do tại sao, vui lòng nghiên cứu các liên kết này một cách cẩn thận.)

Liên kết đơn, liên kết trung bình, liên kết hoàn chỉnh không bị ảnh hưởng nhiều, nó vẫn sẽ là mức tối thiểu / trung bình / tối đa của sự khác biệt theo cặp.

Tương quan như đo khoảng cách

Nếu bạn preprocess dữ liệu của bạn ( quan sát, tính năng) sao cho mỗi đối tượng có và σ = 1 (mà không cho phép các tính năng liên tục!), Sau đó tương quan giảm tới cosin:npμ=0σ=1

Corr(X,Y)=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY=E[XY]=1nX,Y

Trong cùng điều kiện, khoảng cách Euclide bình phương cũng giảm xuống cosin:

dEuclid2(X,Y)=(XiYi)2=Xi2+Yi22XiYi=2n2X,Y=2n[1Corr(X,Y)]

Do đó, trừ khi dữ liệu của bạn bị suy biến, sử dụng tương quan cho phân cụm phân cấp sẽ ổn. Chỉ cần xử lý trước như đã giải thích ở trên, sau đó sử dụng khoảng cách Euclide bình phương.


1
Only ward's method is special, and should be used with squared Euclidean. Không chỉ phường. Bất kỳ phương pháp tính toán centroid hoặc độ lệch so với centroid sẽ cần khoảng cách euclide hoặc bình phương (tùy thuộc vào việc thực hiện), vì lợi ích của độ chính xác hình học. Với việc mất như vậy và cảnh báo do, chúng có thể được sử dụng với các khoảng cách số liệu khác. Những phương pháp đó là centroid, "median", Ward's, phương sai (không bị nhầm lẫn với Ward!) Và một số phương pháp khác.
ttnphns 8/8/2015

Cảm ơn, tôi đã làm điều đó rõ ràng hơn. Tôi đã không nhận thức được những biến thể này, tôi chỉ nghĩ về đơn / trung bình / hoàn thành / phường.
Anony-Mousse

1
Có rất nhiều lỗi chính tả và biểu thức không xác định trong bài này! Bạn có thể vui lòng xem xét nó, sửa chữa nó lên, và giải thích những gì " " đang có và những gì " d i m " có thể tham khảo? ,dim
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.