1- Số lượng các tính năng: Về mặt mô hình mạng nơ-ron, nó đại diện cho số lượng nơ-ron trong lớp chiếu (ẩn). Vì lớp chiếu được xây dựng dựa trên giả thuyết phân phối, vectơ số cho mỗi từ biểu thị mối quan hệ của nó với các từ ngữ cảnh của nó.
Các tính năng này được học bởi mạng lưới thần kinh vì đây là phương pháp không giám sát. Mỗi vector có một số đặc điểm ngữ nghĩa. Chẳng hạn, hãy lấy ví dụ cổ điển V(King) -V(man) + V(Women) ~ V(Queen)
và mỗi từ được biểu thị bằng vectơ 300-d. V(King)
sẽ có các đặc điểm ngữ nghĩa của Royality, vương quốc, nam tính, con người trong vector theo một trật tự nhất định. V(man)
sẽ có nam tính, con người, làm việc theo một trật tự nhất định. Do đó, khi V(King)-V(Man)
được thực hiện, nam tính, các đặc điểm của con người sẽ bị vô hiệu hóa và khi được thêm vào V(Women)
có tính nữ, các đặc điểm của con người sẽ được thêm vào do đó dẫn đến một vectơ tương tự nhưV(Queen)
. Điều thú vị là, các đặc điểm này được mã hóa trong vectơ theo một thứ tự nhất định để các phép tính số như phép cộng, phép trừ hoạt động hoàn hảo. Điều này là do bản chất của phương pháp học tập không giám sát trong mạng lưới thần kinh.
2- Có hai thuật toán gần đúng. Hierarchical softmax
và negative sampling
. Khi tham số mẫu được đưa ra, nó sẽ lấy mẫu âm tính. Trong trường hợp softmax phân cấp, đối với mỗi vectơ từ, các từ ngữ cảnh của nó được đưa ra kết quả dương và tất cả các từ khác trong từ vựng đều được đưa ra kết quả âm. Vấn đề phức tạp về thời gian được giải quyết bằng cách lấy mẫu âm tính. Như trong lấy mẫu âm, thay vì toàn bộ từ vựng, chỉ một phần từ vựng được lấy mẫu được đưa ra đầu ra âm và các vectơ được đào tạo nhanh hơn nhiều so với phương pháp trước đây.