Chọn khoảng cách phù hợp không phải là một nhiệm vụ cơ bản. Khi chúng tôi muốn thực hiện phân tích cụm trên một tập dữ liệu, các kết quả khác nhau có thể xuất hiện bằng các khoảng cách khác nhau, vì vậy điều rất quan trọng là phải chọn khoảng cách nào vì chúng tôi có thể tạo ra một vật phẩm giả tốt có thể nắm bắt tốt sự biến thiên, nhưng thực tế không có ý nghĩa trong vấn đề của chúng tôi.
Các Euclide khoảng cách thích hợp khi tôi có các biến số liên tục và tôi muốn phản ánh khoảng cách tuyệt đối. Khoảng cách này tính đến mọi biến số và không loại bỏ các dư thừa, vì vậy nếu tôi có ba biến giải thích giống nhau (có tương quan), tôi sẽ cân nhắc hiệu ứng này bằng ba. Hơn nữa, khoảng cách này không phải là bất biến tỷ lệ, vì vậy nói chung tôi phải chia tỷ lệ trước đó để sử dụng khoảng cách.
Ví dụ sinh thái học: Chúng tôi có các quan sát khác nhau từ nhiều địa phương, trong đó các chuyên gia đã lấy mẫu của một số yếu tố vi sinh, vật lý và hóa học. Chúng tôi muốn tìm các mô hình trong hệ sinh thái. Các yếu tố này có mối tương quan cao, nhưng chúng tôi biết mọi người đều có liên quan, vì vậy chúng tôi không muốn loại bỏ những dư thừa này. Chúng tôi sử dụng khoảng cách Euclide với dữ liệu được thu nhỏ để tránh ảnh hưởng của các đơn vị.
Các Mahalanobis khoảng cách thích hợp khi tôi có các biến số liên tục và tôi muốn phản ánh khoảng cách tuyệt đối, nhưng chúng tôi muốn loại bỏ dư thừa. Nếu chúng ta có các biến lặp lại, hiệu ứng lặp đi lặp lại của chúng sẽ biến mất.
Gia đình Hellinger , Hồ sơ loài và khoảng cách hợp âm là phù hợp khi chúng ta muốn nhấn mạnh vào sự khác biệt giữa các biến, khi chúng ta muốn phân biệt các cấu hình. Các khoảng cách này có trọng số theo tổng số lượng của mỗi quan sát, theo cách mà khoảng cách là nhỏ khi biến đổi theo các biến, các cá thể giống nhau hơn, mặc dù ở cường độ tuyệt đối rất khác nhau. Coi chừng! Những khoảng cách này phản ánh rất rõ sự khác biệt giữa các cấu hình, nhưng mất đi hiệu ứng cường độ. Chúng có thể rất hữu ích khi chúng ta có các cỡ mẫu khác nhau.
Ví dụ sinh thái học: Chúng tôi muốn nghiên cứu hệ động vật của nhiều vùng đất và chúng tôi có một ma trận dữ liệu của một kho lưu trữ của dạ dày (lấy mẫu các vị trí trong các hàng và tên loài trong các cột). Ma trận được đặc trưng bởi có nhiều số không và độ lớn khác nhau vì một số địa phương có một số loài và những loài khác có loài khác. Chúng ta có thể sử dụng khoảng cách Hellinger.
Bray-Curtis khá giống nhau, nhưng nó phù hợp hơn khi chúng ta muốn phân biệt các cấu hình và cũng tính đến độ lớn tương đối.