Đối với tài liệu văn bản, các vectơ đặc trưng có thể rất cao và thưa thớt dưới bất kỳ biểu diễn tiêu chuẩn nào (túi từ hoặc TF-IDF, v.v.). Đo khoảng cách trực tiếp dưới một đại diện như vậy có thể không đáng tin cậy vì thực tế đã biết rằng trong các kích thước rất cao, khoảng cách giữa hai điểm bất kỳ bắt đầu giống nhau. Một cách để giải quyết vấn đề này là giảm kích thước dữ liệu bằng cách sử dụng PCA hoặc LSA ( Phân tích ngữ nghĩa tiềm ẩn ; còn được gọi là lập chỉ mục ngữ nghĩa tiềm ẩn ) và sau đó đo khoảng cách trong không gian mới. Sử dụng một cái gì đó như LSA trên PCA là thuận lợi vì nó có thể mang lại một đại diện có ý nghĩa về mặt "khái niệm ngữ nghĩa", ngoài việc đo khoảng cách trong không gian chiều thấp hơn.
So sánh các tài liệu dựa trên phân phối xác suất thường được thực hiện bằng cách tính toán phân phối chủ đề của từng tài liệu (sử dụng cái gì đó như Phân bổ Dirichlet tiềm ẩn ), sau đó tính toán một số loại phân kỳ (ví dụ: phân kỳ KL) giữa các phân phối chủ đề của cặp tài liệu. Theo một cách nào đó, nó thực sự giống với việc thực hiện LSA trước rồi sau đó đo khoảng cách trong không gian LSA bằng cách sử dụng phân kỳ KL giữa các vectơ (thay vì tương tự cosine).
Phân kỳ KL là thước đo khoảng cách để so sánh các phân phối, vì vậy có thể tốt hơn nếu biểu diễn tài liệu theo phân phối (thường là trường hợp - ví dụ, các tài liệu được biểu thị dưới dạng phân phối theo các chủ đề, như trong LDA). Cũng lưu ý rằng theo cách trình bày như vậy, các mục trong vectơ đặc trưng sẽ tổng hợp thành một (vì về cơ bản bạn đang coi tài liệu là phân phối theo các chủ đề hoặc khái niệm ngữ nghĩa).
Cũng xem một chủ đề liên quan ở đây .