Tính trung bình hai vectơ Word2vec để có được biểu diễn thống nhất cho một từ


8

Tôi đã làm việc trên một dữ liệu được đào tạo cho thuật toán Word2vec. Vì chúng tôi cần các từ để giữ nguyên bản, chúng tôi không biến chúng thành chữ thường ở giai đoạn tiền xử lý. Do đó, có những từ có các biến thể khác nhau (ví dụ "Trái đất" và "trái đất").

Cách duy nhất tôi có thể nghĩ đến là lấy trung bình các vectơ cho "Trái đất" và "trái đất" để tạo ra một vectơ duy nhất để biểu thị từ. (Vì kích thước của vectơ là tương tự)

Đây có phải là một phương pháp "ổn"? Nếu không, điều gì có thể là một cách tốt để xử lý vấn đề này?

Lưu ý: Giảm tất cả các từ trong tiền xử lý hiện không phải là một tùy chọn.

Chỉnh sửa: Thông tin về việc kích thước tính năng có thực sự tuyến tính hay không cũng sẽ hữu ích.

Chỉnh sửa 2: Kết hợp cả hai câu trả lời từ patapouf_aiyazhicho kết quả tốt nhất. Làm thế nào được kết hợp? Trung bình có trọng số đã cải thiện kết quả nhưng việc đặt tần số từ thông qua chức năng sigmoid được chia tỷ lệ cho kết quả tốt nhất, bởi vì sử dụng tần số từ theo cách tuyến tính mang lại cho họ tầm quan trọng cao hơn so với họ.

Câu trả lời:


1

Chỉ tính trung bình chúng có thể không tốt bởi vì điều đó sẽ cho rằng chúng có cùng trọng lượng, và đó có lẽ không phải là trường hợp nếu phiên bản viết hoa và không được chấp nhận xuất hiện với tần số rất khác nhau trong dữ liệu đào tạo của bạn.

Một cải tiến gia tăng sẽ là trung bình chúng tỷ lệ thuận với tần số của chúng trong kho. Vì vậy, nói Trái đất xuất hiện 159 lần và trái đất 1239 lần làm một việc như:

v (Trái đất & trái đất) = 159 / (159 + 1239) * v (Trái đất) + 1239 / (159 + 1239) * v (trái đất).

Các vectơ được cho là mã hóa ngữ nghĩa tuyến tính, do đó, điều này sẽ cung cấp cho bạn một xấp xỉ có thể cộng hưởng.


1
Đây là giải pháp chúng tôi đã chọn. Tôi cũng có thể chấp nhận câu trả lời.
ozgur

0

Các từ "Trái đất" và "trái đất" có thể có cùng một nghĩa, nhưng theo thuật toán word2vec, nó lấy được thông tin ngữ nghĩa từ vị trí của các từ.

Do đó, thông thường, "Trái đất" sẽ xuất hiện thường xuyên nhất khi bắt đầu câu là chủ ngữ và "trái đất" sẽ xuất hiện chủ yếu ở dạng đối tượng ở cuối. Vì vậy, các từ liền kề gần nhất có thể khác nhau, nhưng về tổng thể cả hai câu có thể chứa các từ như "ô nhiễm, khí hậu, nước, quốc gia".

Để kết luận, tôi đoán với kích thước cửa sổ lớn hơn, nó dường như lưu giữ cùng một thông tin ngữ nghĩa với một chút thay đổi trong đó "Trái đất" sẽ có một số thông tin chủ đề và "trái đất" sẽ có thông tin đối tượng. Vì vậy, trung bình sẽ không ảnh hưởng nhiều và dường như là một trường hợp có thể. Nhưng với kích thước cửa sổ thấp hơn, có khả năng cao là nó có thể có ý nghĩa khác nhau.


Chà, kích thước BoW là 5. Số nào bạn xem xét kích thước cửa sổ phù hợp để lấy trung bình để làm việc?
ozgur

kích thước cửa sổ là 5 nghĩa, tổng cộng nó xem xét 10 từ và một câu tiếng Anh thông dụng có thể được viết thành 10 từ. Điều đó nghe có vẻ tốt đối với tôi.
yazhi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.