Tại sao softmax phân cấp tốt hơn cho các từ không thường xuyên, trong khi lấy mẫu âm tính tốt hơn cho các từ thường xuyên?


Câu trả lời:


10

Tôi không phải là chuyên gia về word2vec, nhưng khi đọc Rong, X. (2014). Giải thích về tham số word2vec và từ kinh nghiệm NN của riêng tôi, tôi đơn giản hóa lý do cho việc này:

  • Ôi(tôiog(N))Ôi(N)
  • Lấy mẫu tiêu cực là một cách để lấy mẫu dữ liệu đào tạo, tương tự như việc giảm độ dốc ngẫu nhiên, nhưng điều quan trọng là bạn tìm kiếm các ví dụ đào tạo tiêu cực. Theo trực giác, nó đào tạo dựa trên các địa điểm lấy mẫu mà nó có thể mong đợi một từ, nhưng không tìm thấy một từ nào, nhanh hơn việc đào tạo toàn bộ một xác chết mỗi lần lặp và có ý nghĩa đối với các từ phổ biến.

Về mặt lý thuyết, hai phương pháp này không phải là độc quyền, nhưng dù sao đó dường như là lý do tại sao chúng tốt hơn cho những từ thường xuyên và không thường xuyên.


1

Tôi hiểu điều này là do mã Huffman được sử dụng khi xây dựng hệ thống phân cấp.

Softmax phân cấp sử dụng một cây các nút sigmoid thay vì một softmax lớn, mã hóa Huffman đảm bảo rằng sự phân phối các điểm dữ liệu thuộc về mỗi bên của bất kỳ nút sigmoid nào được cân bằng. Do đó, nó giúp loại bỏ ưu tiên đối với các danh mục thường xuyên so với việc sử dụng một mẫu mềm lớn và mẫu âm tính lớn.


0

Softmax phân cấp xây dựng một cây trên toàn bộ từ vựng và các nút lá đại diện cho các từ hiếm chắc chắn sẽ kế thừa các biểu diễn vectơ của tổ tiên trong cây, có thể bị ảnh hưởng bởi các từ thường xuyên khác trong kho văn bản. Điều này sẽ có lợi cho việc đào tạo gia tăng cho kho mới.

Lấy mẫu âm tính được phát triển dựa trên ước lượng tương phản nhiễu và lấy mẫu ngẫu nhiên các từ không có trong ngữ cảnh để phân biệt dữ liệu quan sát với nhiễu ngẫu nhiên được tạo giả.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.