Câu trả lời:
Không có trực quan duy nhất đúng. Nó phụ thuộc vào khía cạnh của các cụm bạn muốn xem hoặc nhấn mạnh.
Bạn có muốn xem làm thế nào mỗi biến đóng góp? Hãy xem xét một đồ thị tọa độ song song.
Bạn có muốn xem làm thế nào các cụm được phân phối dọc theo các thành phần chính? Hãy xem xét một biplot (ở dạng 2D hoặc 3D):
Bạn có muốn tìm kiếm các ngoại lệ cụm trên tất cả các kích thước. Xem xét một biểu đồ tán xạ khoảng cách từ tâm của cụm 1 so với khoảng cách từ tâm của cụm 2. (Theo định nghĩa của K Có nghĩa là mỗi cụm sẽ nằm ở một bên của đường chéo.)
Bạn có muốn xem quan hệ cặp so với phân cụm. Hãy xem xét một ma trận phân tán được tô màu theo cụm.
Bạn có muốn xem một cái nhìn tóm tắt về khoảng cách cụm? Xem xét so sánh bất kỳ hình ảnh phân phối, chẳng hạn như biểu đồ, âm mưu violin hoặc âm mưu hộp.
Hiển thị đa biến là khó khăn, đặc biệt là với số lượng biến đó. Tôi có hai gợi ý.
Nếu có một số biến đặc biệt quan trọng đối với việc phân cụm hoặc thực sự thú vị, bạn có thể sử dụng ma trận phân tán và hiển thị các mối quan hệ hai biến giữa các biến thú vị của bạn. Bạn thậm chí có thể sử dụng các biểu đồ phân tán nâng cao (ví dụ: sử dụng các hình có kích thước tỷ lệ với biến thứ ba) để thêm vào một số chiều khác
Ngoài ra, bạn có thể sử dụng một springplot được phát triển để hiển thị dữ liệu chiều cao thể hiện phân cụm. Lưu ý, tôi chưa bao giờ thấy điều này trong tài liệu mà tôi quen thuộc, nhưng tôi nghĩ đó là một cách rất thú vị để hiển thị dữ liệu đa biến. Các trích dẫn sau đây là nơi cốt truyện ban đầu được đề xuất.
Hoffman, PE và cộng sự. (1997) Khai thác dữ liệu trực quan và phân tích DNA. Trong Kỷ yếu của Trực quan hóa IEEE. Phượng hoàng, AZ, trang 437-441.
Và đây là nơi ban đầu tôi thấy đề cập đến nó.
Bây giờ, cảnh báo công bằng, tôi đã không thể tìm thấy một triển khai mùa xuân bên ngoài Orange. Sau đó, một lần nữa, tôi đã không tìm kiếm khó khăn!
Tôi giả định rằng dữ liệu của bạn là có giá trị thực và liên tục, nếu nó rời rạc hoặc không xen kẽ, vì vậy, tôi không nghĩ rằng các âm mưu sẽ hữu ích.
Bạn có thể sử dụng hàm fviz_cluster từ factoextra pacakge trong R. Nó sẽ hiển thị biểu đồ phân tán dữ liệu của bạn và các màu khác nhau của các điểm sẽ là cụm.
Theo sự hiểu biết của tôi, chức năng này thực hiện PCA và sau đó chọn hai máy tính hàng đầu và vẽ đồ thị trên 2D.
Bất kỳ đề nghị / cải thiện trong câu trả lời của tôi đều được chào đón nhất.