Có phải một khoảng cách phải là một số liệu của dòng Điên để một cụm phân cấp có giá trị trên đó không?


9

Hãy để chúng tôi nói rằng chúng tôi xác định một khoảng cách, không phải là một số liệu , giữa N mục.

Dựa trên khoảng cách này, sau đó chúng tôi sử dụng phân cụm phân cấp kết tụ .

Chúng ta có thể sử dụng từng thuật toán đã biết (liên kết đơn / tối đa / avaerage, v.v.), để có được kết quả có ý nghĩa không? Hoặc đặt khác nhau, vấn đề với việc sử dụng chúng là gì nếu khoảng cách không phải là một số liệu?


"Vật phẩm" trong trường hợp của bạn là gì? (Tôi đang hỏi liệu nó có liên quan gì đến tâm lý học hay không bởi vì nếu đây là trường hợp, tôi khuyên bạn nên xem xét phân cụm vật phẩm , hoặc phân tích cụm phân cấp, và cấu trúc bên trong của các thử nghiệm , MBR (1979) 14 : 57.)
chl

Câu trả lời:


7

Yêu cầu về khoảng cách phụ thuộc vào phương pháp phân cụm phân cấp. Các phương pháp đơn, hoàn chỉnh, trung bình cần khoảng cách là không âm và đối xứng. Các phương pháp Ward, centroid, median cần (bình phương) euclid (thậm chí là định nghĩa hẹp hơn khoảng cách) để tạo ra kết quả có ý nghĩa hình học.

(Người ta có thể kiểm tra xem ma trận khoảng cách của anh ấy / cô ấy có phải là euclide hay không bằng cách căn giữa nó [xem câu trả lời của tôi ở đây ] và xem xét các giá trị riêng; nếu không tìm thấy giá trị riêng âm thì khoảng cách sẽ hội tụ trong không gian euclide.)


Cảm ơn. Câu hỏi tiếp theo: bất đẳng thức tam giác có phải giữ cho các phương pháp đơn, hoàn chỉnh, trung bình không? và nếu một số khoảng cách là (ví dụ) không đối xứng, thì nó gây ra vấn đề gì cho các phương thức này? (Cảm ơn!)
Tal Galili

1
Các phương pháp phân cụm phân cấp cổ điển có thể không có gì ngoài ma trận đối xứng: khoảng cách từ A đến B = từ B đến A. Các phương pháp khác đặc biệt tồn tại để đối phó với sự bất đối xứng (bạn có thể google). Đối với bất đẳng thức tam giác - không phải là điều kiện cần thiết cho các phương pháp bạn đề cập. (Tuy nhiên, trí tuệ thông thường nghĩ rằng "khoảng cách" là smth với sự bất bình đẳng, do đó, đáng để xem xét áp đặt nó nếu nó bị thiếu. sau đó bạn sẽ sớm đến khoảng cách euclide)
ttnphns

5

d(Một,B)tối đa(d(Một,C),d(B,C))

Khoảng cách Ultrametric thu được từ các bước liên tiếp trong thuật toán phân cụm có thể được biểu diễn bằng dendrograms, mà bạn có thể đã thấy trong ngữ cảnh này.


Cảm ơn Hồng. Tôi nhớ rằng các phương pháp để biến đổi một số đối tượng thành hclust yêu cầu rằng dendrogram là siêu ma trận - Tôi sẽ làm điều này nếu điều này phải làm với những gì bạn đã viết. Trong mọi trường hợp, cảm ơn bạn đã trả lời.
Tal Galili
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.