Lấy từ bài đăng này: https://stats.stackexchange.com/a/245452/154812
Vấn đề
Có một số vấn đề với việc học vectơ từ bằng cách sử dụng mạng thần kinh "chuẩn". Theo cách này, các vectơ từ được học trong khi mạng học dự đoán từ tiếp theo được cung cấp một cửa sổ các từ (đầu vào của mạng).
Dự đoán từ tiếp theo giống như dự đoán lớp. Đó là, một mạng như vậy chỉ là một bộ phân loại đa tiêu chuẩn (đa lớp). Và mạng này phải có nhiều nơ ron đầu ra như các lớp có. Khi các lớp là các từ thực tế, số lượng tế bào thần kinh là, tốt, rất lớn.
Mạng thần kinh "chuẩn" thường được đào tạo với hàm chi phí entropy chéo đòi hỏi các giá trị của các nơ ron đầu ra để biểu diễn xác suất - có nghĩa là "điểm số" đầu ra được tính toán bởi mạng cho mỗi lớp phải được chuẩn hóa, chuyển đổi thành xác suất thực tế cho mỗi lớp. Bước chuẩn hóa này đạt được bằng chức năng softmax. Softmax rất tốn kém khi áp dụng cho một lớp đầu ra khổng lồ.
Giải pháp (a)
Để giải quyết vấn đề này, nghĩa là tính toán đắt tiền của softmax, Word2Vec sử dụng một kỹ thuật gọi là ước lượng tương phản nhiễu. Kỹ thuật này được giới thiệu bởi [A] (được điều chỉnh bởi [B]) sau đó được sử dụng trong [C], [D], [E] để tìm hiểu các từ nhúng từ văn bản ngôn ngữ tự nhiên không ghi nhãn.
Ý tưởng cơ bản là chuyển đổi một vấn đề phân loại đa quốc gia (vì đó là vấn đề dự đoán từ tiếp theo) thành vấn đề phân loại nhị phân. Đó là, thay vì sử dụng softmax để ước tính phân phối xác suất thực sự của từ đầu ra, một hồi quy logistic nhị phân (phân loại nhị phân) được sử dụng thay thế.
Đối với mỗi mẫu đào tạo, bộ phân loại nâng cao (được tối ưu hóa) được cung cấp một cặp thực sự (một từ trung tâm và một từ khác xuất hiện trong ngữ cảnh của nó) và một số cặp kk bị hỏng ngẫu nhiên (bao gồm từ trung tâm và một từ được chọn ngẫu nhiên từ từ vựng). Bằng cách học cách phân biệt các cặp thực sự với các cặp bị hỏng, cuối cùng bộ phân loại sẽ học các vectơ từ.
Điều này rất quan trọng: thay vì dự đoán từ tiếp theo (kỹ thuật đào tạo "tiêu chuẩn"), bộ phân loại được tối ưu hóa chỉ dự đoán liệu một cặp từ là tốt hay xấu.
Word2Vec hơi tùy chỉnh quy trình và gọi đó là lấy mẫu âm tính. Trong Word2Vec, các từ cho các mẫu âm tính (được sử dụng cho các cặp bị hỏng) được rút ra từ một bản phân phối được thiết kế đặc biệt, ưu tiên các từ ít thường xuyên hơn được rút ra thường xuyên hơn.
Tài liệu tham khảo
[A] (2005) - Ước tính tương phản: Đào tạo mô hình log-linear trên dữ liệu chưa được gắn nhãn
[B] (2010) - Ước tính tương phản nhiễu: Một nguyên tắc ước tính mới cho các mô hình thống kê không chuẩn hóa
[C] (2008) - Một kiến trúc hợp nhất để xử lý ngôn ngữ tự nhiên: Mạng lưới thần kinh sâu sắc với việc học đa nhiệm
[D] (2012) - Một thuật toán nhanh và đơn giản để đào tạo các mô hình ngôn ngữ xác suất thần kinh .
[E] (2013) - Học nhúng từ hiệu quả với ước lượng tương phản nhiễu .