Khi cố gắng giải thích các phân tích cụm, mọi người thường hiểu sai quy trình là có liên quan đến việc các biến có tương quan hay không. Một cách để khiến mọi người vượt qua sự nhầm lẫn đó là một âm mưu như thế này:
Điều này hiển thị rõ ràng sự khác biệt giữa câu hỏi liệu có cụm và câu hỏi liệu các biến có liên quan hay không. Tuy nhiên, điều này chỉ minh họa sự khác biệt cho dữ liệu liên tục. Tôi gặp khó khăn khi nghĩ về một tương tự với dữ liệu phân loại:
ID property.A property.B
1 yes yes
2 yes yes
3 yes yes
4 yes yes
5 no no
6 no no
7 no no
8 no no
Chúng ta có thể thấy rằng có hai cụm rõ ràng: những người có cả tài sản A và B, và những người không có. Tuy nhiên, nếu chúng ta xem xét các biến (ví dụ: với kiểm tra chi bình phương), chúng có liên quan rõ ràng:
tab
# B
# A yes no
# yes 4 0
# no 0 4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389
Tôi thấy tôi không biết làm thế nào để xây dựng một ví dụ với dữ liệu phân loại tương tự như với dữ liệu liên tục ở trên. Thậm chí có thể có các cụm trong dữ liệu hoàn toàn phân loại mà không có các biến có liên quan không? Điều gì xảy ra nếu các biến có nhiều hơn hai cấp hoặc khi bạn có số lượng biến lớn hơn? Nếu việc phân cụm các quan sát không nhất thiết kéo theo mối quan hệ giữa các biến và ngược lại, điều đó có nghĩa là việc phân cụm không thực sự đáng làm khi bạn chỉ có dữ liệu phân loại (nghĩa là bạn chỉ nên phân tích các biến thay thế)?
Cập nhật: Tôi đã bỏ qua rất nhiều câu hỏi ban đầu vì tôi chỉ muốn tập trung vào ý tưởng rằng một ví dụ đơn giản có thể được tạo ra sẽ trực quan ngay cả với một người gần như không quen thuộc với các phân tích cụm. Tuy nhiên, tôi nhận ra rằng rất nhiều phân cụm phụ thuộc vào các lựa chọn về khoảng cách và thuật toán, v.v. Nó có thể hữu ích nếu tôi chỉ định thêm.
Tôi nhận ra rằng mối tương quan của Pearson thực sự chỉ phù hợp với dữ liệu liên tục. Đối với dữ liệu phân loại, chúng ta có thể nghĩ về phép thử chi bình phương (đối với bảng dự phòng hai chiều) hoặc mô hình log-linear (đối với các bảng dự phòng nhiều chiều) như một cách để đánh giá tính độc lập của các biến phân loại.
Đối với một thuật toán, chúng ta có thể tưởng tượng sử dụng k-medoid / PAM, có thể được áp dụng cho cả tình huống liên tục và dữ liệu phân loại. (Lưu ý rằng, một phần của ý định đằng sau ví dụ liên tục là bất kỳ thuật toán phân cụm hợp lý nào cũng có thể phát hiện các cụm đó và nếu không, có thể xây dựng một ví dụ cực đoan hơn.)
Về quan niệm khoảng cách. Tôi giả sử Euclid cho ví dụ liên tục, bởi vì nó sẽ là cơ bản nhất cho người xem ngây thơ. Tôi cho rằng khoảng cách tương tự với dữ liệu phân loại (trong đó nó sẽ trực quan nhất ngay lập tức) sẽ là kết hợp đơn giản. Tuy nhiên, tôi sẵn sàng thảo luận về các khoảng cách khác nếu điều đó dẫn đến một giải pháp hoặc chỉ là một cuộc thảo luận thú vị.
[data-association]
thẻ. Tôi không chắc những gì được cho là chỉ ra & nó không có hướng dẫn sử dụng / trích đoạn. Chúng ta có thực sự cần thẻ này không? Có vẻ như là một ứng cử viên tốt để xóa. Nếu chúng tôi thực sự cần nó trên CV và bạn biết nó là gì, ít nhất bạn có thể thêm một đoạn trích cho nó không?