Câu hỏi về túi từ liên tục


11

Tôi đang gặp khó khăn để hiểu câu này:

Kiến trúc được đề xuất đầu tiên tương tự như NNLM tiếp theo, trong đó lớp ẩn phi tuyến tính được loại bỏ và lớp chiếu được chia sẻ cho tất cả các từ (không chỉ ma trận chiếu); do đó, tất cả các từ được chiếu vào cùng một vị trí (vectơ của chúng được tính trung bình).

Lớp chiếu so với ma trận chiếu là gì? Có nghĩa là gì khi nói rằng tất cả các từ được chiếu vào cùng một vị trí? Và tại sao nó có nghĩa là vectơ của chúng được tính trung bình?

Câu này là phần đầu tiên của phần 3.1 của Ước tính hiệu quả các biểu diễn từ trong không gian vectơ (Mikolov et al. 2013) .

Câu trả lời:


6

Hình 1 ở đó làm rõ mọi thứ một chút. Tất cả các vectơ từ từ cửa sổ có kích thước nhất định được tổng hợp, kết quả được nhân với (1 / kích thước cửa sổ) và sau đó được đưa vào lớp đầu ra.

Ma trận chiếu có nghĩa là toàn bộ bảng tra cứu trong đó mỗi từ tương ứng với một vectơ có giá trị thực duy nhất. Lớp chiếu có hiệu quả là một quá trình lấy một từ (chỉ mục từ) và trả về vectơ tương ứng. Người ta có thể nối chúng (lấy đầu vào có kích thước k * n trong đó k là kích thước cửa sổ và n là chiều dài vectơ) hoặc như trong mô hình CBOW, chỉ cần tổng hợp tất cả chúng (lấy đầu vào có kích thước n).

nhập mô tả hình ảnh ở đây


Đầu tiên, cảm ơn câu trả lời của bạn. Tôi vẫn còn một chút bối rối bởi sự phân biệt giữa ma trận chiếu và lớp chiếu. Họ có vẻ giống nhau.
70394

@ user70394 Vâng, trên thực tế tôi thấy thuật ngữ hơi khó hiểu. Về cơ bản, bất kỳ lớp NN nào cũng là một hàm ánh xạ đầu vào thành đầu ra. Lớp chiếu thực hiện việc sử dụng trọng số từ ma trận chiếu nhưng bản thân nó không phải là ma trận. Cho cùng một ma trận người ta có thể định nghĩa nhiều hàm khác nhau. Trong thực tế, trong trường hợp CBOW, có lẽ chúng ta có thể nói rằng chúng ta có lớp chiếu với độ trễ thời gian theo sau là lớp tổng. Trong mô hình RNNLM, "lớp chiếu" trên thực tế là một phần của lớp ẩn lặp lại kết hợp các phần tử của ma trận chiếu với các phần tử lặp lại để tính toán các đầu ra.
Denis Tarasov

1

Khi tôi đang tìm hiểu về các vấn đề CBOW và tình cờ phát hiện ra điều này, đây là một câu trả lời thay thế cho câu hỏi (đầu tiên) của bạn (" Lớp chiếu so với ma trận là gì?"), Bằng cách xem mô hình NNLM (Bengio et al., 2003):

Bengio et al., 2003, Hình 1: Kiến trúc thần kinh: f (i, w_ {t − 1}, ···, w_ {t − n + 1}) = g (i, C (w_ {t − 1} ), · ////, C (w_ {t − n + 1})) trong đó g là mạng thần kinh và C (i) là vectơ đặc trưng của từ thứ i.

tmộtnhC(wTôi)Ctmộtnh

Để thêm và "chỉ để ghi lại": Phần thú vị thực sự là cách tiếp cận của Mikolov để giải quyết phần trong hình ảnh của Bengio, bạn thấy cụm từ "tính toán nhiều nhất ở đây". Bengio đã cố gắng giảm bớt vấn đề đó bằng cách làm một cái gì đó được gọi là softmax phân cấp (thay vì chỉ sử dụng softmax) trong một bài báo sau (Morin & Bengio 2005). Nhưng Mikolov, với chiến lược lấy mẫu âm của mình đã tiến thêm một bước: Anh ta không tính toán khả năng log của âm của tất cả các từ "sai" (hay mã hóa của Huffman, như cách mà Bengio đề xuất năm 2005), và chỉ tính toán rất mẫu nhỏ của các trường hợp tiêu cực, trong đó, được cung cấp đủ các tính toán như vậy và phân phối xác suất thông minh, hoạt động rất tốt. Và đóng góp thứ hai và thậm chí lớn hơn, một cách tự nhiên,P(context|wt= =Tôi)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.