Tôi đang cố gắng nhúng khoảng 60 triệu cụm từ vào một không gian vectơ , sau đó tính toán độ tương tự cosin giữa chúng. Tôi đã sử dụng sklearn CountVectorizer
với chức năng mã thông báo được xây dựng tùy chỉnh để tạo unigram và bigram. Hóa ra để có được các biểu diễn có ý nghĩa, tôi phải cho phép một số lượng lớn các cột, tuyến tính trong số lượng hàng. Điều này dẫn đến ma trận cực kỳ thưa thớt và giết chết hiệu suất. Sẽ không tệ lắm nếu chỉ có khoảng 10.000 cột, mà tôi nghĩ là khá hợp lý cho các từ nhúng.
Tôi đang nghĩ đến việc thử sử dụng Google word2vec
bởi vì tôi khá chắc chắn rằng nó tạo ra các chiều nhúng thấp hơn và dày đặc hơn nhiều. Nhưng trước đó, có bất kỳ nhúng nào khác có thể đảm bảo một cái nhìn đầu tiên? Yêu cầu chính là có thể mở rộng khoảng 60 triệu cụm từ (hàng).
Tôi khá mới đối với lĩnh vực nhúng từ nên mọi lời khuyên đều có ích.
Tôi cũng nên thêm rằng tôi đã sử dụng phân tách giá trị số ít để cải thiện hiệu suất.