Về tương quan cophenetic cho phân cụm dendrogram


10

Xem xét bối cảnh của một cụm dendrogram. Chúng ta hãy gọi những khác biệt ban đầu là khoảng cách giữa các cá nhân. Sau khi xây dựng chương trình dendro, chúng tôi xác định sự khác biệt về cophenetic giữa hai cá nhân là khoảng cách giữa các cụm mà các cá nhân này thuộc về.

Một số người cho rằng mối tương quan giữa sự khác biệt ban đầu và sự khác biệt về cophenetic (được gọi là tương quan cophenetic ) là một "chỉ số phù hợp" của phân loại. Điều này nghe có vẻ hoàn toàn khó hiểu với tôi. Sự phản đối của tôi không dựa vào sự lựa chọn cụ thể của mối tương quan Pearson, mà dựa trên ý tưởng chung rằng bất kỳ mối liên hệ nào giữa sự khác biệt ban đầu và sự khác biệt về cophenetic có thể liên quan đến sự phù hợp của phân loại.

Bạn có đồng ý với tôi không, hoặc bạn có thể trình bày một số lập luận ủng hộ việc sử dụng mối tương quan cophenetic như một chỉ số phù hợp cho phân loại dendrogram không?


Bạn không giải thích sự phản đối của bạn với (khá trực quan) general idea that any link between the original dissimilarities and the cophenetic dissimilarities could be related to the suitability of the classification. Phân loại nên phản ánh sự khác biệt ban đầu. Tính năng cơ bản của phân loại Dendrogramic để thực hiện điều này là thông qua sự khác biệt về cophenetic. Có smth. Sai lầm?
ttnphns

1
Nhân tiện, người ta không nên trộn lẫn khái niệm phân cụm (agglometative) với phân loại phân cấp (dendrogramic) . Việc phân cụm tạo ra dendrogram của nó như là một báo cáo quá trình ; nó không tuyên bố nó là kết quả phân loại phân cấp .
ttnphns

1
Mối tương quan về cophenetic chỉ được đề xuất cho các phân loại "giáo điều" - trong đó việc phân loại sẽ phản ánh sự khác biệt theo cặp, từ đó khái niệm về tính hữu ích của tương quan (cophenetic) diễn ra một cách bất đắc dĩ.
ttnphns

2
Bạn có thể muốn đọc bài viết này về tương quan
cophenetic

3
@ StéphaneLaurent Tôi không có gì để đóng góp như một câu trả lời cho câu hỏi của bạn nhưng tôi đã đọc hộp thoại. Không có gì bạn nói nghe có vẻ xúc phạm tôi. Ngoài ra, bạn nói rằng bạn không biết sự khác biệt giữa phân loại và phân cụm và tôi chưa thấy câu hỏi đơn giản nào được trả lời. Đó là sự khác biệt giữa những gì mà máy học người ta gọi là học có giám sát và học không giám sát. Trong phân loại, bạn biết tất cả các nhãn lớp cho dữ liệu của mình và sử dụng thông tin đó để xây dựng quy tắc phân loại cho các trường hợp trong tương lai không có nhãn. Trong cụm bạn không có nhãn.
Michael R. Chernick

Câu trả lời:


2

... là một "chỉ số phù hợp" của phân loại

Đối với tôi nó không đúng nghĩa là gì. Cách tôi hiểu, là

mối tương quan giữa sự khác biệt ban đầu và sự khác biệt về cophenetic (được gọi là tương quan cophenetic)

là thước đo cấu trúc phân cấp giữa các quan sát , tức là khoảng cách của chúng. Điều đó có nghĩa là sự khác biệt đối với các quan sát trong một cụm khác nhau tốt nhất là tương tự nhau. Xem xét các bộ dữ liệu A và B được nhóm lại bằng cách sử dụng khoảng cách euclide và liên kết hoàn chỉnh ... nhập mô tả hình ảnh ở đây ... ngay cả khi không nhìn vào bản đồ khoảng cách cophenetic hoặc tính tương quan cophenetic, người ta có thể thấy rằng, mối tương quan cophenetic của A cao hơn B Trong một hệ thống phân cấp có các cấp độ. Vì vậy, CC cho biết liệu khoảng cách đến các quan sát trên cùng một cấp độ (cụm) có giống nhau hay không.

Vì lợi ích của sự hoàn chỉnh: Các mối tương quan về cophenetic là CC (A) = 0.936 và CC (B) = 0.691


1
Tôi ước tôi có nhiều chuyên gia về điều này. Tôi không hoàn toàn làm theo ví dụ của bạn với các bản đồ nhiệt. Những gì bạn thấy làm cho nó rõ ràng CC (A)> CC (B)? Ví dụ: nếu các tam giác trên là khoảng cách cophenetic và các tam giác dưới là khoảng cách ban đầu, và cả hai đều hiển thị các mẫu tương tự nhau, thì tôi sẽ nhận ra rằng CC sẽ cao, v.v ... . Có phải chỉ là A tự nhiên sẽ tạo ra sự phân cụm tốt hơn và vì vậy CC kết quả sẽ phải kết thúc tốt?
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.