Làm thế nào để âm mưu cụm trong một cách tốt đẹp?


7

Tôi có một tập dữ liệu văn bản lớn được nhóm lại. Mỗi cụm được đại diện bởi một tâm của các văn bản được vector hóa thuộc về nó, số lượng văn bản, ngày tạo và các tham số khác. Tôi không thể vẽ các cụm trong một không gian n chiều. Tôi có những lựa chọn nào?


Tìm kiếm holoviews
Aditya

bib đó thật tuyệt vời @Aditya!
Federico Caccia

Một âm mưu mẫu sử dụng datashader từ cùng .. datascience.stackexchange.com/a/28659/35644 @Federico Caccia
Aditya

Câu trả lời:


3

T-SNE là một thuật toán giảm kích thước khác không được đề cập trong bài viết trong câu trả lời khác. Được sử dụng cho dữ liệu RẤT cao, nếu bạn đã đào tạo một số nhúng cho tập dữ liệu của mình. Tham khảo tại đây . Thư viện chuẩn Python ở đây .

chúc mừng


2

Một vài lựa chọn:

  • Nhúng tuyến tính cục bộ (LLE) : Phương pháp này xây dựng một tập hợp các miếng vá hình học cục bộ trên mỗi điểm dữ liệu được xây dựng lại thông qua tổng trọng số của hàng xóm K gần nhất của nó và ánh xạ các miếng vá này vào không gian chiều thấp hơn. Tìm mã ở đây và tôi khuyên bạn nên sử dụng cả LLE và LLE đã sửa đổi và sử dụng mã tốt hơn (trực quan).
  • t-SNE : Ánh xạ sự giống nhau của các điểm ở chiều cao, thành đa tạp chiều thấp được trích xuất bởi khoảng cách của chúng trong phân bố t. Hãy cẩn thận để điều chỉnh các thông số đúng .
  • Thực tế nhúng : Phân cụm phổ trong thực tế (hay nói chính xác hơn, Phân cụm phổ thực sự là một cụm đơn giản trên phiên bản dữ liệu được nhúng toàn cảnh). Nó chiếu dữ liệu về các hàm riêng của Laplacian theo độ lớn của các giá trị riêng tương ứng.

nhiều hơn nữa ...


1

Bạn có thể sử dụng thuật toán giảm kích thước (như phân tích thành phần chính) để giảm số lượng kích thước của dữ liệu xuống còn 2 hoặc 3, sau đó thực hiện các biểu đồ phân tán bằng cách sử dụng các biến được giảm, tô màu chúng theo cụm mà chúng thuộc về. Trong blogpost này một điều tương tự được thực hiện.


Tôi có hàng ngàn thứ nguyên, vì vậy PCA có thể bị mất quá nhiều thông tin. Và tôi chỉ muốn vẽ đồ thị của từng cụm. Tôi nghĩ cách tốt nhất là vẽ thời gian tạo biểu đồ so với tính năng khác và cung cấp cho điểm (bong bóng) một bán kính tỷ lệ thuận với số lượng phần tử trong cụm này.
Federico Caccia
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.