Làm thế nào để lấy mẫu âm tính làm việc trong word2vec?


19

Tôi đã cố gắng hết sức để hiểu khái niệm lấy mẫu âm trong ngữ cảnh của word2vec. Tôi không thể tiêu hóa ý tưởng lấy mẫu [âm]. Ví dụ, trong các bài báo của Mikolov, kỳ vọng lấy mẫu âm tính được xác định là

đăng nhậpσ(w,c)+kEcN~PD[đăng nhậpσ(-w,cN)].

Tôi hiểu những hạn trái , nhưng tôi không thể hiểu được ý tưởng về lấy mẫu cặp từ ngữ cảnh tiêu cực.đăng nhậpσ(w,c)


4
Thật nực cười khi phân tán tài liệu dành cho word2vec. Bạn sẽ tìm thấy các dẫn xuất lấy mẫu âm ở đây: arxiv.org/pdf/1402.3722v1.pdf
Alex R.

Tôi đã đi qua lời giải thích mà bạn đề cập và hiểu các toán học đằng sau nó. Nhưng tôi không thể tiêu hóa được trực giác đằng sau việc lấy mẫu.
Upendra Kumar

Câu trả lời:


27

Vấn đề

Có một số vấn đề với việc học vectơ từ bằng cách sử dụng mạng thần kinh "chuẩn". Theo cách này, các vectơ từ được học trong khi mạng học để dự đoán từ tiếp theo được cung cấp một cửa sổ các từ (đầu vào của mạng).

Dự đoán từ tiếp theo giống như dự đoán lớp. Đó là, một mạng như vậy chỉ là một bộ phân loại đa tiêu chuẩn (đa lớp). Và mạng này phải có nhiều nơ ron đầu ra như các lớp có. Khi các lớp là các từ thực tế, số lượng tế bào thần kinh là, rất lớn .

Mạng thần kinh "chuẩn" thường được đào tạo với hàm chi phí entropy chéo đòi hỏi các giá trị của các nơ ron đầu ra để biểu diễn xác suất - có nghĩa là "điểm số" đầu ra được tính toán bởi mạng cho mỗi lớp phải được chuẩn hóa, chuyển đổi thành xác suất thực tế cho mỗi lớp. Bước chuẩn hóa này đạt được bằng phương pháp softmax chức năng . Softmax rất tốn kém khi áp dụng cho một lớp đầu ra khổng lồ.

Giải pháp (a)

Để giải quyết vấn đề này, nghĩa là tính toán đắt tiền của softmax, Word2Vec sử dụng một kỹ thuật gọi là ước lượng tương phản nhiễu.Kỹ thuật này được giới thiệu bởi [A] (được điều chỉnh bởi [B]) sau đó được sử dụng trong [C], [D], [E] để tìm hiểu các từ nhúng từ văn bản ngôn ngữ tự nhiên không ghi nhãn.

Ý tưởng cơ bản là chuyển đổi một vấn đề phân loại đa quốc gia (vì đó là vấn đề dự đoán từ tiếp theo ) sang phân loại nhị phân vấn đề . Đó là, thay vì sử dụng softmax để ước tính phân phối xác suất thực của từ đầu ra, một hồi quy logistic nhị phân (phân loại nhị phân) được sử dụng thay thế.

k (bao gồm từ trung tâm và một từ được chọn ngẫu nhiên từ từ vựng). Bằng cách học cách phân biệt các cặp thực sự với các cặp bị hỏng, cuối cùng bộ phân loại sẽ học các vectơ từ.

Điều này rất quan trọng: thay vì dự đoán từ tiếp theo (kỹ thuật đào tạo "tiêu chuẩn"), bộ phân loại được tối ưu hóa chỉ dự đoán liệu một cặp từ là tốt hay xấu .

Word2Vec hơi tùy chỉnh quy trình và gọi đó là lấy mẫu âm tính . Trong Word2Vec, các từ cho các mẫu âm tính (được sử dụng cho các cặp bị hỏng) được rút ra từ một bản phân phối được thiết kế đặc biệt, ưu tiên các từ ít thường xuyên hơn được rút ra thường xuyên hơn.

Tài liệu tham khảo

[A] (2005) - Ước tính tương phản: Đào tạo mô hình log-linear trên dữ liệu chưa được gắn nhãn

[B] (2010) - Ước tính tương phản nhiễu: Một nguyên tắc ước tính mới cho các mô hình thống kê không chuẩn hóa

[C] (2008) - Một kiến ​​trúc hợp nhất để xử lý ngôn ngữ tự nhiên: Mạng lưới thần kinh sâu sắc với việc học đa nhiệm

[D] (2012) - Một thuật toán nhanh và đơn giản để đào tạo các mô hình ngôn ngữ xác suất thần kinh .

[E] (2013) - Học nhúng từ hiệu quả với ước lượng tương phản nhiễu .


Câu trả lời dựa trên một số ghi chú cũ của tôi - Tôi hy vọng họ đã đúng :)


2
Bạn đã đề cập , "in Word2Vec, the words for the negative samples (used for the corrupted pairs) are drawn from a specially designed distribution, which favours less frequent words to be drawn more often". Tôi đang tự hỏi điều này có đúng không? Bởi vì một số nguồn khác nói rằng các từ thường xuyên hơn được lấy mẫu là mẫu âm tính. Essentially, the probability for selecting a word as a negative sample is related to its frequency, with more frequent words being more likely to be selected as negative samples.
Tyler 来 国


BTW, lý do để chọn từ các từ thường xuyên cao hoặc thấp làm mẫu âm tính là gì? Là lấy mẫu ngẫu nhiên từ các từ phi ngữ cảnh không đủ tốt?
Tyler 来 国

@Tyler 来 国 Theo tôi hiểu, những từ ít thường xuyên hơn có nhiều thông tin hơn vì chúng có xu hướng cụ thể theo ngữ cảnh. Các từ thường xuyên hơn có xu hướng được liên kết với nhiều từ khác (lấy ví dụ cực đoan "the"). Điều này làm cho các từ không thường xuyên trở nên "khó hơn" để hiểu đúng (bạn học nhanh hơn) và cũng làm giảm cơ hội chọn một từ thực sự không phải là mẫu âm (vì với khối lượng lớn, việc kiểm tra này rất tốn kém và thường bị bỏ qua).
drevicko

@drevicko Các từ ít thường xuyên hơn có nhiều thông tin hơn, nhưng các từ ít thường xuyên hơn là các mẫu âm tính thì ít thông tin hơn. Theo lý thuyết Thông tin, xác suất càng cao, thông tin tự càng nhỏ. Sự kiện các từ thường xuyên là mẫu âm cho một từ mục tiêu nhất định phải có xác suất nhỏ hơn, có nghĩa là Lượng thông tin cao hơn.
Tyler 来 国
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.