Các tính năng của vectơ từ trong word2vec


9

Tôi đang cố gắng để làm phân tích tình cảm. Để chuyển đổi các từ thành vectơ từ, tôi đang sử dụng mô hình word2vec. Giả sử tôi có tất cả các câu trong danh sách có tên 'câu' và tôi đang chuyển những câu này cho word2vec như sau:

model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300,   window=5, sample=1e-3)

Vì tôi không biết vectơ từ nên tôi có hai nghi ngờ.
1- Đặt số lượng tính năng thành 300 xác định các tính năng của vectơ từ. Nhưng những tính năng này có ý nghĩa gì? Nếu mỗi từ trong mô hình này được biểu thị bằng một mảng numpy 1x300, thì 300 tính năng này biểu thị cho từ đó là gì?

2- Việc lấy mẫu xuống như được biểu thị bằng tham số 'mẫu' trong mô hình trên thực tế là gì?

Cảm ơn trước.

Câu trả lời:


10

1- Số lượng các tính năng: Về mặt mô hình mạng nơ-ron, nó đại diện cho số lượng nơ-ron trong lớp chiếu (ẩn). Vì lớp chiếu được xây dựng dựa trên giả thuyết phân phối, vectơ số cho mỗi từ biểu thị mối quan hệ của nó với các từ ngữ cảnh của nó.

Các tính năng này được học bởi mạng lưới thần kinh vì đây là phương pháp không giám sát. Mỗi vector có một số đặc điểm ngữ nghĩa. Chẳng hạn, hãy lấy ví dụ cổ điển V(King) -V(man) + V(Women) ~ V(Queen)và mỗi từ được biểu thị bằng vectơ 300-d. V(King)sẽ có các đặc điểm ngữ nghĩa của Royality, vương quốc, nam tính, con người trong vector theo một trật tự nhất định. V(man)sẽ có nam tính, con người, làm việc theo một trật tự nhất định. Do đó, khi V(King)-V(Man)được thực hiện, nam tính, các đặc điểm của con người sẽ bị vô hiệu hóa và khi được thêm vào V(Women)có tính nữ, các đặc điểm của con người sẽ được thêm vào do đó dẫn đến một vectơ tương tự nhưV(Queen). Điều thú vị là, các đặc điểm này được mã hóa trong vectơ theo một thứ tự nhất định để các phép tính số như phép cộng, phép trừ hoạt động hoàn hảo. Điều này là do bản chất của phương pháp học tập không giám sát trong mạng lưới thần kinh.

2- Có hai thuật toán gần đúng. Hierarchical softmaxnegative sampling. Khi tham số mẫu được đưa ra, nó sẽ lấy mẫu âm tính. Trong trường hợp softmax phân cấp, đối với mỗi vectơ từ, các từ ngữ cảnh của nó được đưa ra kết quả dương và tất cả các từ khác trong từ vựng đều được đưa ra kết quả âm. Vấn đề phức tạp về thời gian được giải quyết bằng cách lấy mẫu âm tính. Như trong lấy mẫu âm, thay vì toàn bộ từ vựng, chỉ một phần từ vựng được lấy mẫu được đưa ra đầu ra âm và các vectơ được đào tạo nhanh hơn nhiều so với phương pháp trước đây.


Việc giải thích các tính năng của word2vec là sai lệch. Không có một chiều nam tính của không gian, hoặc một yếu tố hoàng gia trong vector. Nếu đó là trường hợp, thì một không gian vectơ 300 chiều chỉ có thể đại diện cho 300 nhị phân ngữ nghĩa độc lập.
Dan Hicks

@DanHicks: Tôi chưa bao giờ đề cập đến từng tính năng như một thứ nguyên của không gian. Tôi chỉ nói rằng các tính năng ngữ nghĩa như vậy được mã hóa trong vectơ theo thứ tự nhất định, sao cho có thể thực hiện các phép toán.
yazhi

"Các tính năng" thường đề cập đến các biến được sử dụng để biểu diễn các trường hợp - trong trường hợp này, các phần tử của vectơ từ / kích thước của không gian vectơ. Câu hỏi của @ Nain rõ ràng sử dụng "tính năng" theo cách này. "Các tính năng ngữ nghĩa" mà bạn đang nói đến nhiều nhất là một cách nói mơ hồ về cách word2vec xử lý các phép loại suy. Chúng không phải là tất cả các tính năng của vectơ từ.
Dan Hicks

1
bạn đã đúng .. Tôi đã chỉnh sửa "các tính năng ngữ nghĩa" thành "các đặc điểm ngữ nghĩa" và "các tính năng" trong câu trả lời chỉ đại diện cho các kích thước của vectơ.
yazhi

0
  1. Theo giả thuyết phân phối, kích thước cá nhân trong vectơ của từ không biểu thị nhiều về từ này trong thế giới thực. Bạn cần phải lo lắng về kích thước cá nhân. Nếu câu hỏi của bạn là vậy thì tôi nên chọn số lượng từ như thế nào, nó hoàn toàn dựa trên thử nghiệm cho dữ liệu của bạn và nó có thể đi từ 100 đến 1000. Đối với nhiều thử nghiệm trong đó việc đào tạo được thực hiện trên văn bản wiki, chủ yếu là 300 chiều kết quả.
  2. Thông số mẫu là tham số được sử dụng để cắt các từ có tần số cao. Ví dụ: "" là "" đã ", những từ khóa này không được xem xét trong cửa sổ trong khi dự đoán từ bên trong và giá trị mặc định hoạt động tốt để xác định những từ dừng có tần số cao hơn.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.