Mối quan hệ của hàm mục tiêu lấy mẫu âm (NS) với hàm mục tiêu ban đầu trong word2vec là gì?

8

Tôi đã đọc mô hình word2vec tiêu chuẩn / nổi tiếng và theo ghi chú của standord cho cs224n , hàm mục tiêu thay đổi từ:

J_{o r i g i n a l} = - \sum_{j = 0, j \neq m}^{2 m} u_{c - m + j}^{⊤} v_{c} + 2 m l o g (\sum_{k = 1}^{| V |} e x p (u_{k}^{⊤} v_{c}))

$J_{original} = -\sum^{2m}_{j=0,j\neq m} u^\top_{c-m+j} v_c + 2m log \left( \sum^{|V|}_{k=1} exp(u^{\top}_k v_c) \right)$

đến:

J_{N S 1} = - l o g σ (u_{c - m + j}^{⊤} v_{c}) - \sum_{k = 1}^{K} l o g σ (- u_{k}^{⊤} v_{c})

$J_{NS1} = -log \sigma( u^\top_{c-m+j} v_c ) - \sum^{K}_{k=1} log \sigma( -u^{\top}_k v_c )$

hoặc là

J_{N S 2} = - (\log σ (v_{w_{o}}^{T} v_{w_{c}}) + \sum_{i = 1}^{K} E_{i \sim P (w)} [\log σ (- u_{w_{i}}^{T} v_{w_{c}})])

$J_{NS2} = - \left( \log\sigma( v_{w_o}^T v_{w_c} ) + \sum^K_{i=1} \mathbb{E}_{i \sim P(w)} \left[ \log \sigma( - u^T_{w_i} v_{w_c})\right] \right)$

Tôi đã tự hỏi, chức năng mục tiêu thứ hai đến từ đâu? Trường hợp lấy mẫu âm tính đến từ đâu? Tôi không yêu cầu một bằng chứng / dẫn xuất nghiêm ngặt nhưng bất kỳ loại biện minh nào cũng tốt. Wow là cái thứ hai xấp xỉ cái đầu tiên? Theo nghĩa nào? Rough, xấp xỉ, trực quan, có bất cứ điều gì để biện minh cho điều này?

Lưu ý tôi hiểu rằng có một tốc độ tăng. Tôi quan tâm nhiều hơn đến việc hiểu những gì có thể là quá trình suy nghĩ để rút ra những điều trên trong khi vẫn muốn tối ưu hóa chức năng ban đầu hoặc có các từ nhúng tốt.

Suy nghĩ của riêng tôi:

Đặt là xác suất mà một từ từ và ngữ cảnh đã cho xuất phát từ dữ liệu kho văn bản. Hãy xem xét (tức là cho phép xem mọi thứ là tối đa hóa xác suất). Dường như tối đa hóa thuật ngữ đầu tiên xuất ra chính xác hai vectơ từ có tương quan kể từ khi làm cho lớn có thể làm cho thuật ngữ đầu tiên lớn bằng cách làm cho thuật ngữ đầu tiên gần bằng 1, có thể đạt được bằng cách tạo ra sản phẩm bên trong của các vectơ lớn. $P_{\theta}(D=1 \mid w,c)$ $(w,c)$ $-J_{NS1} = \log \sigma( u^\top_{c-m+j} v_c ) + \sum^{K}_{k=1} log \sigma( -u^{\top}_k v_c )$ $-J_{NS1}$

Tuy nhiên, dường như với tôi, thuật ngữ thứ hai thực sự thúc đẩy chúng tôi lấy lại những từ đại diện xấu . Hãy nhìn vào thuật ngữ thứ hai là gì:

\log σ (- u_{not context}^{⊤} v_{c e n t e r}) = \log (1 - σ (u_{not context}^{⊤} v_{c e n t e r}))

$\log \sigma( -u^\top_{\text{not context}} v_{center}) = \log \left(1 - \sigma( u^\top_{\text{not context}} v_{center}) \right)$

chúng ta có thể tăng thuật ngữ trên bằng cách làm cho lớn có nghĩa là chúng ta tạo nhỏ (gần bằng "xác suất"). Điều này có nghĩa là chúng tôi muốn đối số rất tiêu cực đối với sigmoid. Điều đó có nghĩa là chúng ta có các vectơ có sản phẩm âm lớn bên trong. Điều này có vẻ sai đối với tôi bởi vì nếu sản phẩm bên trong bằng 0 tức là các từ vuông góc, đó sẽ là mục tiêu tốt hơn để có. Tại sao họ lại chọn cái khác thay thế? Sẽ không từ vuông góc sẽ tốt hơn? tức là nếu các từ không giống nhau và do đó không tương quan thì chúng không liên quan gì với nhau và do đó không có sản phẩm bên trong. $1 - \sigma( u^\top_{\text{not context}} v_{center})$ $\sigma( u^\top_{\text{not context}} v_{center})$

Về cơ bản, tại sao sản phẩm bên trong tiêu cực có ý nghĩa tương tự từ tốt hơn sản phẩm bên trong bằng không?

— Pinocchio
nguồn

có vẻ hữu ích: stackoverflow.com/questions/27860652/ từ

— Pinocchio

1

Liên quan: stats.stackexchange.com/questions/244616 (thậm chí có thể trùng lặp?)

— amip

1

Câu trả lời cho câu hỏi được tham chiếu bởi @amoebasaysReinstateMonica trong phần bình luận về câu hỏi của bạn trả lời khá tốt, nhưng tôi muốn đưa ra hai điểm.

Đầu tiên, để mở rộng một điểm trong câu trả lời đó, mục tiêu được tối thiểu hóa không phải là nhật ký âm của hàm softmax. Thay vào đó, nó được định nghĩa là một biến thể của ước lượng tương phản nhiễu (NCE), có nghĩa là tập hợp các hồi quy logisticMột được sử dụng cho mẫu dương tính (nghĩa là từ ngữ cảnh thực được cung cấp từ trung tâm) và còn lại được sử dụng cho các mẫu âm (nghĩa là từ ngữ cảnh giả / giả cho từ trung tâm). $K$ $K-1$

Thứ hai, lý do bạn muốn có một sản phẩm tiêu cực lớn bên trong giữa các từ ngữ cảnh sai và từ trung tâm là bởi vì điều này ngụ ý rằng các từ này rất giống nhau. Để thấy điều này, hãy xem xét công thức tương tự cosine giữa hai vectơ và : Điều này đạt được tối thiểu -1 khi và được định hướng ngược nhau và bằng 0 khi và $x$ $y$

s_{c o s} (x, y) = \frac{x^{T} y}{| | x | |_{2} | | y | |_{2}}

$s_{cos}(x, y) = \frac{x^Ty}{||x||_2||y||_2}$

x

$x$

y

$y$

x

$x$

y

$y$ vuông góc nhau. Nếu chúng vuông góc, chúng không chứa thông tin nào giống nhau trong khi nếu chúng được định hướng ngược nhau, chúng chứa thông tin ngược lại. Nếu bạn tưởng tượng các vectơ từ trong 2D, thì điều này giống như nói rằng từ "sáng" có sự nhúng [1 0], "bóng tối" có sự nhúng [-1 0] và "ngon" có sự nhúng [0 1]. Trong ví dụ đơn giản của chúng tôi, "sáng" và "tối" là đối lập nhau. Dự đoán rằng một cái gì đó là "tối" khi nó "sáng" sẽ không chính xác tối đa vì nó sẽ truyền tải chính xác ngược lại với thông tin dự định. Mặt khác, từ "ngon" không mang thông tin nào về việc thứ gì đó "sáng" hay "tối", vì vậy nó được định hướng vuông góc với cả hai.

Đây cũng là một lý do tại sao các nhúng được học từ word2vec hoạt động tốt ở lý luận tương tự, liên quan đến tổng và sự khác biệt của vectơ từ. Bạn có thể đọc thêm về nhiệm vụ trong bài viết word2vec.

— Vivek Subramanian
nguồn

-1

Các vectơ đang được nhân lên không nhúng các vectơ của các từ. Chúng là các sản phẩm bên trong được đặt vào các vectơ nhúng của từ và ma trận trọng số / vectơ của lớp đầu ra. Vì vậy, mục tiêu là để giảm thiểu tổn thất entropy chéo. Cho dù các sản phẩm innet là âm hay không không cho thấy bất cứ điều gì về độ tương tự từ. Đây là ý kiến của tôi.

— Tyler 来国
nguồn