Tại sao Skip-gram tốt hơn cho các từ không thường xuyên hơn CBOW?


Câu trả lời:


14

Trong CBOW, các vectơ từ các từ ngữ cảnh được tính trung bình trước khi dự đoán từ trung tâm. Trong Skip-gram không có trung bình của các vectơ nhúng. Có vẻ như mô hình có thể học các biểu diễn tốt hơn cho các từ hiếm khi vectơ của chúng không được tính trung bình với các từ ngữ cảnh khác trong quá trình đưa ra dự đoán.


13

Đây là sự hiểu biết quá đơn giản và khá ngây thơ của tôi về sự khác biệt:

Như chúng ta biết, CBOW đang học cách dự đoán từ theo ngữ cảnh. Hoặc tối đa hóa xác suất của từ mục tiêu bằng cách nhìn vào ngữ cảnh. Và điều này xảy ra là một vấn đề cho những từ hiếm. Ví dụ, với yesterday was really [...] daymô hình CBOW bối cảnh sẽ cho bạn biết rằng hầu hết có lẽ là từ beautifulhoặc nice. Những từ như delightfulsẽ nhận được ít sự chú ý của mô hình hơn, bởi vì nó được thiết kế để dự đoán từ có thể xảy ra nhất. Các từ hiếm sẽ được làm mịn qua rất nhiều ví dụ với các từ thường xuyên hơn.

Mặt khác, Skip-gram được thiết kế để dự đoán bối cảnh. Cho từ delightfulnày nó phải hiểu nó và nói với chúng tôi, rằng có xác suất rất lớn, bối cảnh là yesterday was really [...] day, hoặc một số bối cảnh có liên quan khác. Với Skip-gram , từ delightfulnày sẽ không cố gắng cạnh tranh với từ beautifulmà thay vào đó, delightful+contextcác cặp sẽ được coi là những quan sát mới. Bởi vì điều này, Skip-gram sẽ cần nhiều dữ liệu hơn nên nó sẽ học cách hiểu những từ thậm chí hiếm.


0

Tôi vừa bắt gặp một bài báo cho thấy điều ngược lại: rằng CBOW tốt hơn cho những từ không thường xuyên hơn Skip-gram https://arxiv.org/abs/1609.08293 . Tôi tự hỏi các nguồn của khiếu nại đã nêu trên https://code.google.com.vn/p/word2vec/ .


Tôi tin rằng Mikolov đã tự viết bộ công cụ đó. Điều thú vị là, trong bài báo của mình: papers.nips.cc/paper/... ông khẳng định: "Chúng tôi thấy rằng lấy mẫu con các từ thường xuyên trong kết quả đào tạo trong sự tăng tốc đáng kể (khoảng 2x - 10x), và cải thiện tính chính xác của các cơ quan đại diện các từ ít gặp hơn. " vì vậy bỏ qua gram của nó với phần mở rộng mẫu phụ.
Kevin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.