So sánh các dendrogram phân cụm phân cấp thu được bằng các khoảng cách & phương pháp khác nhau


28

[Tiêu đề ban đầu "Đo lường độ tương tự cho các cây phân cụm theo cấp bậc" sau đó đã được thay đổi bởi @ttnphns để phản ánh tốt hơn chủ đề]

Tôi đang thực hiện một số phân tích cụm phân cấp trên khung dữ liệu của hồ sơ bệnh nhân (ví dụ: tương tự như http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y )

Tôi đang thử nghiệm các thước đo khoảng cách khác nhau , trọng lượng tham số khác nhau và các phương pháp chữ tượng hình khác nhau , để hiểu tác động của chúng đối với cụm / cấu trúc / khung nhìn cuối cùng của cây (dendrogram). Câu hỏi của tôi là liệu có một phép tính / thước đo tiêu chuẩn để tính toán sự khác biệt giữa các cây phân cấp khác nhau và cách thực hiện điều này trong R (ví dụ để định lượng rằng một số cây gần giống nhau và một số cây khác nhau rất nhiều).

Câu trả lời:


44

Để so sánh sự giống nhau của hai cấu trúc phân cấp (giống như cây), các biện pháp dựa trên ý tưởng tương quan cophenetic được sử dụng. Nhưng liệu có đúng khi thực hiện so sánh các dendrogram để chọn phương pháp "đúng" hoặc đo khoảng cách trong phân cụm theo cấp bậc?

Có một số điểm - ẩn giấu - liên quan đến phân tích cụm phân cấp mà tôi sẽ giữ khá quan trọng :

  • Không bao giờ so sánh (để chọn phương thức cho phân vùng mạnh hơn) các dendrogram thu được bằng các phương pháp tích tụ khác nhau một cách trực quan. Nó sẽ không cho biết phương pháp nào "tốt hơn" ở đó. Mỗi phương thức giao diện cây "nguyên mẫu" riêng: các cây sẽ khác nhau ngay cả khi dữ liệu không có cấu trúc cụm hoặc có cấu trúc cụm ngẫu nhiên. (Và tôi không nghĩ rằng có tồn tại một tiêu chuẩn hoặc biện pháp sẽ loại bỏ những khác biệt nội tại này.). Tuy nhiên, bạn có thể so sánh giao diện dendrogram của các kết quả được tạo bởi cùng một phương pháp nhưng dữ liệu khác nhau. Maxim: trực tiếp, sự xuất hiện so sánh của dendrograms sau các phương pháp khác nhau là không thể chấp nhận được .
  • 1 Maxim: chọn mức cắt bằng cách xem xét sự xuất hiện của dendrogram, trong khi có thể, không phải là phương pháp tốt nhất để chọn phân vùng và đối với một số phương pháp có thể gây hiểu nhầm . Thay vào đó, nên dựa vào một số tiêu chí phân cụm nội bộ chính thức .
  • Mặc dù không ai có thể cấm bạn "thử nghiệm" các biện pháp khoảng cách hoặc phương pháp kết tụ, tốt hơn là chọn khoảng cách và phương pháp một cách có ý thức , không cố gắng mù quáng. Khoảng cách sẽ phản ánh các khía cạnh của sự khác biệt mà bạn quan tâm và phương pháp - người ta phải biết - ngụ ý một kiểu mẫu cụ thể của cụm (ví dụ, ẩn dụ của cụm Ward là, loại , cụm sau khi liên kết hoàn chỉnh sẽ được khoanh tròn [theo sở thích hoặc cốt truyện]; cụm sau liên kết đơn sẽ là phổ [chuỗi]; cụm sau phương pháp centroid sẽ gần với nền tảng [chính trị]; cụm liên kết trung bình hầu như không phân biệt về mặt khái niệm và thường là lớp thống nhất ).
  • Một số phương pháp gọi các biện pháp khoảng cách đúng và / hoặc đúng loại dữ liệu. Ward và centroid, ví dụ, yêu cầu một cách hợp lý (bình phương) khoảng cách euclide - bởi vì các phương pháp này tham gia vào việc tính toán các centroid trong không gian euclide. Và tính toán của trọng tâm hình học là không phù hợp, ví dụ, dữ liệu nhị phân; dữ liệu nên được chia tỷ lệ / liên tục. Maxim: giả định dữ liệu / khoảng cách / phương pháp và sự tương ứng là rất quan trọng và câu hỏi không quá dễ dàng.
  • Tiền xử lý (như định tâm, chia tỷ lệ và các hình thức chuyển đổi biến / tính năng khác) tính toán trước của ma trận khoảng cách và thực hiện phân cụm cũng là một câu hỏi cực kỳ quan trọng. Nó có thể ảnh hưởng đáng kể đến kết quả. Hãy suy nghĩ về những gì tiền xử lý có thể giúp bạn và sẽ có ý nghĩa từ quan điểm giải thích. Ngoài ra, đừng bao giờ ngại kiểm tra cẩn thận dữ liệu của bạn trước khi thử phân tích cụm.
  • Không phải tất cả các phương pháp phân cụm liên kết đều có thể được xem như là cung cấp cho bạn phân loại phân cấp ... trên cơ sở triết học. Ví dụ, phương pháp centroid thực hiện phân cấp theo một nghĩa nào đó, bởi vì trung tâm cụm là một tính năng nổi bật và xác định của toàn bộ cụm, và các cụm hợp nhất được điều khiển bởi tính năng đó. Mặt khác, liên kết hoàn chỉnh, "loại bỏ" cả hai phân nhóm khi nó hợp nhất chúng - nhờ vào khoảng cách giữa các đối tượng riêng lẻ của hai. Do đó, dendrogram liên kết hoàn chỉnh chỉ là một lịch sử của bộ sưu tập và không phải là một loại phân loại cha-con .Maxim: phân tích cụm kết tụ phân cấp, nói chung, hy vọng rằng bạn tạo phân vùng dựa trên kết quả của nó, thay vì xem kết quả là phân loại phân cấp.
  • Phân cụm theo phân cấp là thuật toán tham lam điển hình , đưa ra lựa chọn tốt nhất trong số các lựa chọn thay thế xuất hiện trên mỗi bước với hy vọng sẽ tiến gần đến giải pháp tối ưu cuối cùng. Tuy nhiên, lựa chọn "tốt nhất" xuất hiện ở bước cấp cao có thể sẽ kém hơn so với tối ưu toàn cầu về mặt lý thuyết có thể có trên bước đó. Bước càng lớn, càng lớn thì càng tốt, như một quy luật. Cho rằng chúng ta thường muốn vài cụm bước cuối cùng là quan trọng; và, như vừa nói, họ dự kiến ​​sẽ tương đối nghèo nếu số bước chân cao (ví dụ, bước thứ nghìn). Đó là lý do tại sao phân cụm theo cấp bậc thường không được khuyến nghị cho các mẫu đối tượng lớn (đánh số hàng nghìn đối tượng) ngay cả khi chương trình có thể xử lý ma trận khoảng cách lớn như vậy.

XtôijYtôij


1 thực hiện) và không tích lũy. Để lặp lại một lần nữa, sự khác biệt như vậy chỉ ảnh hưởng đến hình dạng / diện mạo chung của dendrogram, chứ không phải kết quả phân cụm. Nhưng vẻ ngoài của dendrogram có thể ảnh hưởng đến quyết định của bạn về số lượng cụm. Về mặt đạo đức là sẽ an toàn nếu không dựa vào dendrogram trong phương pháp của Ward, trừ khi bạn biết chính xác các hệ số này ra khỏi chương trình của bạn là gì và làm thế nào để giải thích chúng một cách chính xác.


5
Tôi có thể thứ hai khá nhiều tất cả về điều này. Hai điểm mà tôi muốn thêm: A) những gì bạn dường như làm là một số loại quá mức . Bằng cách đánh giá một cách có hệ thống các biện pháp, trọng lượng và phương pháp, có nguy cơ cao rằng các tham số bạn kết thúc có tính đặc hiệu cao cho dữ liệu hiện tại của bạn và có thể vô dụng đối với dữ liệu khác hoặc thậm chí dữ liệu sau này. B) những gì tốt để biết sự tương tự của các dendrograms. Xem xét những gì bạn muốn làm với họ sau đó, và sau đó thử đánh giá ở kết quả cuối cùng. Đánh giá kết quả tạm thời có thể gây hiểu nhầm.
Anony-Mousse

1
Nếu bạn vẫn quan tâm đến chủ đề này, tôi nghĩ rằng bạn có thể thấy câu trả lời gần đây của tôi về DS SE hữu ích, đặc biệt là nó cung cấp phạm vi bảo hiểm, mặc dù có giới hạn, cả về cách tiếp cận thường xuyênBayesian đối với các mô hình chủ đề phân cấp (với thông tin lớp nhúng) và lựa chọn các biện pháp tương tự .
Alexanderr Blekh

@ttnphns, bạn có thể vui lòng giải thích chi tiết hơn về cách sử dụng "hệ số va chạm" để so sánh hai phân loại phân cấp không?
bassir
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.