Word nhúng thuật toán về hiệu suất


11

Tôi đang cố gắng nhúng khoảng 60 triệu cụm từ vào một không gian vectơ , sau đó tính toán độ tương tự cosin giữa chúng. Tôi đã sử dụng sklearn CountVectorizervới chức năng mã thông báo được xây dựng tùy chỉnh để tạo unigram và bigram. Hóa ra để có được các biểu diễn có ý nghĩa, tôi phải cho phép một số lượng lớn các cột, tuyến tính trong số lượng hàng. Điều này dẫn đến ma trận cực kỳ thưa thớt và giết chết hiệu suất. Sẽ không tệ lắm nếu chỉ có khoảng 10.000 cột, mà tôi nghĩ là khá hợp lý cho các từ nhúng.

Tôi đang nghĩ đến việc thử sử dụng Google word2vecbởi vì tôi khá chắc chắn rằng nó tạo ra các chiều nhúng thấp hơn và dày đặc hơn nhiều. Nhưng trước đó, có bất kỳ nhúng nào khác có thể đảm bảo một cái nhìn đầu tiên? Yêu cầu chính là có thể mở rộng khoảng 60 triệu cụm từ (hàng).

Tôi khá mới đối với lĩnh vực nhúng từ nên mọi lời khuyên đều có ích.

Tôi cũng nên thêm rằng tôi đã sử dụng phân tách giá trị số ít để cải thiện hiệu suất.


Bạn đang sử dụng Spark?
eliasah

1
Đó là một trong những lý do tôi đã đề nghị Spark lúc đầu. Tôi xin lỗi, tôi đang nghe điện thoại. Tôi không có quyền truy cập vào bất kỳ tài liệu tham khảo nào liên quan đến các kỹ thuật PCA nhúng trước.
eliasah

1
Tôi không chắc chắn rằng đó là một sự quá mức với lượng dữ liệu đó.
eliasah

1
Loại bỏ các mã thông báo thừa không nên giảm kích thước nhiều vì bạn đang làm việc văn bản. Xem xét một từ điển 150000 từ, loại bỏ các từ dừng cho mỗi ví dụ sẽ có lợi cho bạn với một vài tá. Điều đó sẽ không giúp được gì.
eliasah

1
Mặt khác, bạn có thể muốn xem xét mô hình hóa các chủ đề với Phân bổ Dirichlet tiềm ẩn để giảm kích thước vectơ văn bản cho mỗi cụm từ.
eliasah

Câu trả lời:


3

Gần đây có một số công việc về việc gán động kích thước word2vec (bỏ qua gram) bằng máy Boltzmann. Kiểm tra giấy này:

"Nhúng từ vô hạn chiều" -Nalsnick, Ravi

Ý tưởng cơ bản là để cho tập huấn luyện của bạn ra lệnh cho chiều của mô hình word2vec của bạn, bị phạt bởi một thuật ngữ chính quy có liên quan đến kích thước kích thước.

Bài viết trên thực hiện điều này cho các từ và tôi tò mò muốn xem điều này thực hiện tốt như thế nào với các cụm từ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.