Làm thế nào để giải thích dendrogram của một phân tích cụm phân cấp


25

Hãy xem xét ví dụ R dưới đây:

plot( hclust(dist(USArrests), "ave") )
  1. Chính xác thì "chiều cao" trục y có nghĩa là gì?

  2. Nhìn vào Bắc Carolina và California (thay vì bên trái). California có "gần" với Bắc Carolina hơn Arizona không? Tôi có thể thực hiện giải thích này?

  3. Hawaii (phải) tham gia cụm khá muộn. Tôi có thể thấy điều này vì nó "cao" hơn các tiểu bang khác. Nói chung, làm thế nào tôi có thể diễn giải thực tế rằng các nhãn là "cao hơn" hoặc "thấp hơn" trong chương trình dendro chính xác?

nhập mô tả hình ảnh ở đây


1
Đáp án trong ?hclust.
Scortchi - Phục hồi Monica

3
Các vị trí của các nhãn không có ý nghĩa. Nếu bạn không hiểu trục y thì thật lạ khi bạn có ấn tượng để hiểu rõ về phân nhóm theo cấp bậc.
Stéphane Laurent

1
Cũng xin lưu ý rằng việc phân nhóm theo cấp bậc thường không cung cấp cho bạn phân loại (cây) phân cấp . Phương pháp trung bình (mà bạn đã sử dụng) không, đặc biệt. Xem điểm cuối cùng ở đây .
ttnphns

1
Vị trí của một nhãn có một chút ý nghĩa mặc dù. Vị trí càng cao thì đối tượng càng liên kết với những người khác và do đó, nó càng giống một ngoại lệ hoặc đi lạc.
ttnphns

3
@ StéphaneLaurent Bạn nói đúng rằng điều này nghe có vẻ mâu thuẫn. Trên tay tôi vẫn nghĩ rằng tôi có thể can thiệp vào một bản ghi dữ liệu mà tôi biết rõ. Hơn nữa, vị trí của lables có một chút ý nghĩa như ttnphns và Peter Flom chỉ ra. Cuối cùng bình luận của bạn không mang tính xây dựng đối với tôi.
Ric

Câu trả lời:


17

1) Trục y là thước đo độ gần của các điểm hoặc cụm dữ liệu riêng lẻ.

2) California và Arizona cách xa nhau không kém Florida vì CA và AZ nằm trong một cụm trước khi tham gia FL.

3) Hawaii tham gia khá muộn; vào khoảng 50. Điều này có nghĩa là cụm mà nó tham gia gần nhau hơn trước khi HI tham gia. Nhưng không gần hơn nhiều. Lưu ý rằng cụm mà nó tham gia (một bên ở bên phải) chỉ hình thành ở khoảng 45. Thực tế là HI tham gia một cụm muộn hơn bất kỳ trạng thái nào khác chỉ đơn giản có nghĩa là (sử dụng bất kỳ số liệu nào bạn đã chọn) HI không gần với bất kỳ nhà nước cụ thể.


Do đó, "chiều cao" cho tôi ý tưởng về giá trị của tiêu chí liên kết (như ở đây ) - trong trường hợp của tôi là khoảng cách trung bình của các cụm với nhau. Thê nay đung không? Cảm ơn!
Ric

Không phải là trục Y một biện pháp dis tương đồng giữa các cụm và điểm? Tức là phủ định sự gần gũi, bởi vì nó lớn nhất khi mọi thứ khác biệt nhất, không phải theo cách khác xung quanh @PeterFlom
Felipe Almeida

21

Tôi đã có những câu hỏi tương tự khi tôi thử học phân cụm theo thứ bậc và tôi thấy pdf sau đây rất hữu ích.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Ngay cả khi Richard đã rõ về quy trình, những người khác duyệt qua câu hỏi có thể sử dụng pdf, đặc biệt rất đơn giản và rõ ràng cho những người không có đủ nền tảng toán học.


3
Chỉ muốn nhắc lại rằng pdf được liên kết là rất tốt.
Heisenberg

Tham khảo: Klimberg, Ronald K. và BD McCullough. 2013. Quảng cáo Chương 7: Phân tích cụm phân cấp. Trực tiếp về các nguyên tắc phân tích dự đoán với JMP. Cary, NC: Viện SAS.
jay.sf

1

Trục ngang đại diện cho các cụm. Tỷ lệ dọc trên dendrogram đại diện cho khoảng cách hoặc sự khác biệt. Mỗi phép nối (hợp nhất) của hai cụm được thể hiện trên sơ đồ bằng cách tách một đường thẳng đứng thành hai đường thẳng đứng. Vị trí thẳng đứng của sự phân chia, được hiển thị bằng một thanh ngắn cho khoảng cách (không giống nhau) giữa hai cụm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.