Tôi đã làm việc trên một dữ liệu được đào tạo cho thuật toán Word2vec. Vì chúng tôi cần các từ để giữ nguyên bản, chúng tôi không biến chúng thành chữ thường ở giai đoạn tiền xử lý. Do đó, có những từ có các biến thể khác nhau (ví dụ "Trái đất" và "trái đất").
Cách duy nhất tôi có thể nghĩ đến là lấy trung bình các vectơ cho "Trái đất" và "trái đất" để tạo ra một vectơ duy nhất để biểu thị từ. (Vì kích thước của vectơ là tương tự)
Đây có phải là một phương pháp "ổn"? Nếu không, điều gì có thể là một cách tốt để xử lý vấn đề này?
Lưu ý: Giảm tất cả các từ trong tiền xử lý hiện không phải là một tùy chọn.
Chỉnh sửa: Thông tin về việc kích thước tính năng có thực sự tuyến tính hay không cũng sẽ hữu ích.
Chỉnh sửa 2: Kết hợp cả hai câu trả lời từ patapouf_ai
và yazhi
cho kết quả tốt nhất. Làm thế nào được kết hợp? Trung bình có trọng số đã cải thiện kết quả nhưng việc đặt tần số từ thông qua chức năng sigmoid được chia tỷ lệ cho kết quả tốt nhất, bởi vì sử dụng tần số từ theo cách tuyến tính mang lại cho họ tầm quan trọng cao hơn so với họ.