Yêu cầu cho phân cụm phân cấp
Phân cụm phân cấp có thể được sử dụng với các biện pháp tương tự và khác nhau tùy ý. (Hầu hết các công cụ đều mong đợi sự khác biệt, nhưng sẽ cho phép các giá trị âm - tùy thuộc vào bạn để đảm bảo rằng giá trị nhỏ hay lớn sẽ được ưu tiên.).
Chỉ các phương pháp dựa trên centroid hoặc phương sai (như phương pháp của Ward) là đặc biệt và nên được sử dụng với Euclide bình phương. (Để hiểu lý do tại sao, vui lòng nghiên cứu các liên kết này một cách cẩn thận.)
Liên kết đơn, liên kết trung bình, liên kết hoàn chỉnh không bị ảnh hưởng nhiều, nó vẫn sẽ là mức tối thiểu / trung bình / tối đa của sự khác biệt theo cặp.
Tương quan như đo khoảng cách
Nếu bạn preprocess dữ liệu của bạn ( quan sát, tính năng) sao cho mỗi đối tượng có và σ = 1 (mà không cho phép các tính năng liên tục!), Sau đó tương quan giảm tới cosin:npμ=0σ=1
Corr(X,Y)=Cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=E[XY]=1n⟨X,Y⟩
Trong cùng điều kiện, khoảng cách Euclide bình phương cũng giảm xuống cosin:
d2Euclid(X,Y)=∑(Xi−Yi)2=∑X2i+∑Y2i−2∑XiYi=2n−2⟨X,Y⟩=2n[1−Corr(X,Y)]
Do đó, trừ khi dữ liệu của bạn bị suy biến, sử dụng tương quan cho phân cụm phân cấp sẽ ổn. Chỉ cần xử lý trước như đã giải thích ở trên, sau đó sử dụng khoảng cách Euclide bình phương.