Tôi đã đọc mô hình word2vec tiêu chuẩn / nổi tiếng và theo ghi chú của standord cho cs224n , hàm mục tiêu thay đổi từ:
đến:
hoặc là
Tôi đã tự hỏi, chức năng mục tiêu thứ hai đến từ đâu? Trường hợp lấy mẫu âm tính đến từ đâu? Tôi không yêu cầu một bằng chứng / dẫn xuất nghiêm ngặt nhưng bất kỳ loại biện minh nào cũng tốt. Wow là cái thứ hai xấp xỉ cái đầu tiên? Theo nghĩa nào? Rough, xấp xỉ, trực quan, có bất cứ điều gì để biện minh cho điều này?
Lưu ý tôi hiểu rằng có một tốc độ tăng. Tôi quan tâm nhiều hơn đến việc hiểu những gì có thể là quá trình suy nghĩ để rút ra những điều trên trong khi vẫn muốn tối ưu hóa chức năng ban đầu hoặc có các từ nhúng tốt.
Suy nghĩ của riêng tôi:
Đặt là xác suất mà một từ từ và ngữ cảnh đã cho xuất phát từ dữ liệu kho văn bản. Hãy xem xét (tức là cho phép xem mọi thứ là tối đa hóa xác suất). Dường như tối đa hóa thuật ngữ đầu tiên xuất ra chính xác hai vectơ từ có tương quan kể từ khi làm cho lớn có thể làm cho thuật ngữ đầu tiên lớn bằng cách làm cho thuật ngữ đầu tiên gần bằng 1, có thể đạt được bằng cách tạo ra sản phẩm bên trong của các vectơ lớn.
Tuy nhiên, dường như với tôi, thuật ngữ thứ hai thực sự thúc đẩy chúng tôi lấy lại những từ đại diện xấu . Hãy nhìn vào thuật ngữ thứ hai là gì:
chúng ta có thể tăng thuật ngữ trên bằng cách làm cho lớn có nghĩa là chúng ta tạo nhỏ (gần bằng "xác suất"). Điều này có nghĩa là chúng tôi muốn đối số rất tiêu cực đối với sigmoid. Điều đó có nghĩa là chúng ta có các vectơ có sản phẩm âm lớn bên trong. Điều này có vẻ sai đối với tôi bởi vì nếu sản phẩm bên trong bằng 0 tức là các từ vuông góc, đó sẽ là mục tiêu tốt hơn để có. Tại sao họ lại chọn cái khác thay thế? Sẽ không từ vuông góc sẽ tốt hơn? tức là nếu các từ không giống nhau và do đó không tương quan thì chúng không liên quan gì với nhau và do đó không có sản phẩm bên trong.
Về cơ bản, tại sao sản phẩm bên trong tiêu cực có ý nghĩa tương tự từ tốt hơn sản phẩm bên trong bằng không?