Thuật toán nào Ward.D trong hclust () thực hiện nếu nó không phải là tiêu chí của Ward?


16

Cái được sử dụng bởi tùy chọn "Ward.D" (tương đương với tùy chọn Ward "Ward" duy nhất trong các phiên bản R <= 3.0.3) không thực hiện tiêu chí phân cụm của Ward (1963), trong khi tùy chọn "Ward.D2" thực hiện tiêu chí đó ( Murtagh và Legendre 2014).

( http://stat.ethz.ch/R-manual/R-patched/l Library / stat / html / hclust.html )

Rõ ràng Ward.D không thực hiện đúng tiêu chí của Ward. Tuy nhiên, nó dường như làm một công việc tốt liên quan đến các cụm mà nó tạo ra. Phương thức = "Ward.D" thực hiện điều gì nếu không phải là tiêu chí của Ward?

Người giới thiệu

Murtagh, F., & Legendre, P. (2014). Phương pháp phân cụm kết tụ phân cấp của Ward: thuật toán nào thực hiện tiêu chí của Ward?. Tạp chí phân loại , 31 (3), 274-295.


Liệu giấy Murthagh và Legendre có nói gì về điều này không?
cbeleites hỗ trợ Monica

Tôi không có quyền truy cập vào bài báo đó
Raffael

Điều đầu tiên một tìm kiếm cho tôi là pdf của bản thảo tại u montreal!?
cbeleites hỗ trợ Monica

vậy tờ giấy nói gì? Tôi không thể tìm thấy nó
Raffael

Đó là những gì tôi yêu cầu bạn nói với chúng tôi.
cbeleites hỗ trợ Monica

Câu trả lời:


11

Các bản thảo có liên quan là ở đây .

Sự khác biệt giữa Ward.D và Ward.D2 là sự khác biệt giữa hai tiêu chí phân cụm mà trong bản thảo được gọi là Ward1 và Ward2.

Về cơ bản, nó hiểu rõ rằng thuật toán Ward được triển khai trực tiếp chính xác chỉ trong Ward2 (Ward.D2), nhưng Ward1 (Ward.D) cũng có thể được sử dụng, nếu khoảng cách Euclide (từ dist()) được bình phương trước khi đưa chúng vào hclust()sử dụng phường.D làm phương pháp.

Ví dụ, SPSS cũng thực hiện Ward1, nhưng cảnh báo người dùng rằng khoảng cách nên được bình phương để có được tiêu chí Ward. Theo nghĩa như vậy, việc thực hiện Ward.D không bị phản đối, và dù sao, có thể nên giữ lại nó để tương thích ngược.      


2
Từ bài báo bạn liên kết đến nó không theo Ward algorithm is directly correctly implemented in just Ward2, mà là: (1) để có kết quả chính xác với cả hai lần thực hiện, sử dụng khoảng cách Euclide bình phương với Ward1 và khoảng cách Euclide không được yêu cầu với Ward2; (2) để tiếp tục làm cho các dendrogram đầu ra của chúng có thể so sánh (giống hệt nhau), áp dụng căn bậc hai cho các mức tổng hợp sau Ward1 hoặc các mức tổng hợp vuông sau Ward2, trước khi xây dựng dendrogram.
ttnphns

Bạn đúng, tất nhiên. Cảm ơn bạn đã làm rõ. Điều tôi muốn nói là "trực tiếp thực hiện chính xác" là không cần thêm các bước, chẳng hạn như lấy căn bậc hai của độ cao, để đi đến kết quả chính xác với phương thức Ward.D2.
JTT

1
Một sắc thái nhỏ ở đây là với phương pháp của Ward, nó không được định nghĩa thế nào là "trình bày mức độ hợp nhất" thực sự - cho dù chúng nên được vẽ "vô nghĩa" hay "bình phương". Nguyên nhân của sự do dự là do mức độ nhiệt hạch trong Ward không phải là khoảng cách , chúng là sự phân tán gia tăng .
ttnphns

9

Sự khác biệt duy nhất giữa ward.D& ward.D2là tham số đầu vào.

hclust(dist(x)^2,method="ward.D") ~ hclust(dist(x)^2,method="ward")

tương đương với: hclust(dist(x),method="ward.D2")

Bạn có thể tìm thấy giấy reserach: Phương pháp phân cụm phân cấp của Ward: Tiêu chí phân cụm và thuật toán kết tụ

Các Ward2 giá trị tiêu chuẩn là “ trên thang điểm từ khoảng cách ” trong khi Ward1 giá trị tiêu chuẩn là “ trên thang điểm từ khoảng cách bình phương ”.


Tôi thích câu trả lời này vì câu khác ngụ ý rằng Ward.D sai, không phải vậy. Chỉ khác nhau.
Chris

6

Tôi đã xem qua tài liệu nghiên cứu tương ứng với chức năng mục tiêu đang được tối ưu hóa bởi "Ward1 (Ward.D)": Phân cụm theo cấp bậc thông qua các khoảng cách giữa các bên trong: Mở rộng phương pháp phương sai tối thiểu của Ward . Hóa ra việc triển khai "Ward1 (Ward.D)" của R tương đương với việc giảm thiểu khoảng cách năng lượng giữa các nhóm cụm.

e

A={a1,,an1}B={b1,,bn2}Rdee(A,B)AB

e(A,B)=n1n2n1+n2(2n1n2i=1n1j=1n2aibj(1)1n12i=1n1j=1n1aiaj1n22i=1n2j=1n2bibj).

e(2)ward.D2e(1)ward.D10<α<2e(α)1
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.