Tôi đang sử dụng lập chỉ mục ngữ nghĩa tiềm ẩn để tìm sự tương đồng giữa các tài liệu ( cảm ơn, JMS! )
Sau khi giảm kích thước, tôi đã thử phân cụm k-nghĩa để nhóm các tài liệu thành các cụm, hoạt động rất tốt. Nhưng tôi muốn đi xa hơn một chút và hình dung các tài liệu như một tập hợp các nút, trong đó khoảng cách giữa hai nút bất kỳ tỷ lệ nghịch với độ tương tự của chúng (các nút rất giống nhau gần nhau).
Tôi nhận ra rằng tôi không thể giảm chính xác ma trận tương tự thành đồ thị 2 chiều vì dữ liệu của tôi> 2 chiều. Vì vậy, câu hỏi đầu tiên của tôi: có một cách tiêu chuẩn để làm điều này?
Tôi có thể giảm dữ liệu của mình xuống hai chiều và sau đó vẽ chúng dưới dạng trục X và Y không, và điều đó có đủ cho một nhóm ~ 100-200 tài liệu không? Nếu đây là giải pháp, tốt hơn hết là giảm dữ liệu của tôi xuống 2 chiều ngay từ đầu hoặc có cách nào để chọn hai thứ nguyên "tốt nhất" từ dữ liệu đa chiều của tôi không?
Tôi đang sử dụng Python và thư viện gensim nếu điều đó tạo ra sự khác biệt.