Tôi đang làm việc trên Phân tích tình cảm qua các tweet sử dụng word2vec làm từ đại diện.
Tôi đã đào tạo mô hình word2vec của tôi. Nhưng khi tôi sẽ đào tạo trình phân loại của mình, tôi phải đối mặt với vấn đề là mỗi tweet có độ dài khác nhau và trình phân loại (RandomForest) cần tất cả các ví dụ có cùng kích thước.
Hiện tại, đối với mỗi tweet tôi đang tính trung bình các vectơ của tất cả các từ của nó, để kết thúc bằng một đại diện vectơ của tweet.
Ví dụ: Mô hình word2vec của tôi đại diện cho mỗi từ dưới dạng vectơ có kích thước 300.
Tôi đã Tweet1
hình thành bởi 10 từ, và Tweet2
hình thành bởi 5 từ.
Vì vậy, những gì tôi làm là, cho Tweet1
(v1_Tweet1 + v2_Tweet1 + ... +v10_Tweet1)/10 = v_Tweet1 #avg vector of 300 elements.
Dành cho Tweet2
:
(v1_Tweet2 + v2_Tweet2 + ... +v5_Tweet1)/5 = v_Tweet2 #avg vector of 300 elements.
* Là v1_TweetX là vectơ của từ đầu tiên của TweetX, v.v.
Điều này hoạt động 'tốt' nhưng tôi muốn biết những cách tiếp cận khác mà bạn thực hiện để vượt qua các kích cỡ khác nhau trên các ví dụ về tàu và văn bản cho trình phân loại.
Cảm ơn.