Câu trả lời:
Mô hình không gian từ và mô hình không gian vectơ đề cập đến các khía cạnh khác nhau của việc mô tả đặc trưng của một văn bản như tài liệu. Chúng được mô tả tốt trong sách giáo khoa "Xử lý lời nói và ngôn ngữ" của Jurafsky và Martin, 2009, trong phần 23.1 về truy xuất thông tin. Một tài liệu tham khảo ngắn gọn hơn là "Giới thiệu về truy xuất thông tin" của Manning, Raghavan và Schütze, 2008, trong phần "Mô hình không gian vectơ để ghi điểm".
Bag-of-words dùng để chỉ loại thông tin nào bạn có thể trích xuất từ một tài liệu (cụ thể là các từ unigram). Mô hình không gian vectơ đề cập đến cấu trúc dữ liệu cho mỗi tài liệu (cụ thể là một vectơ đặc trưng của các cặp trọng số hạn & kỳ hạn). Cả hai khía cạnh bổ sung cho nhau.
Cụ thể hơn:
Bag-of-words : Đối với một tài liệu nhất định, bạn chỉ trích xuất các từ unigram (còn gọi là thuật ngữ) để tạo danh sách các từ không có thứ tự. Không có thẻ POS, không cú pháp, không ngữ nghĩa, không vị trí, không bigrams, không bát quái. Chỉ có các từ unigram, tạo ra một loạt các từ để đại diện cho tài liệu. Do đó: Bag-of-words .
Mô hình không gian vectơ : Đưa ra các từ mà bạn trích xuất từ tài liệu, bạn tạo một vectơ đặc trưng cho tài liệu, trong đó mỗi tính năng là một từ (thuật ngữ) và giá trị của tính năng là trọng số hạn. Trọng lượng hạn có thể là:
Do đó, toàn bộ tài liệu là một vectơ đặc trưng và mỗi vectơ đặc trưng tương ứng với một điểm trong không gian vectơ . Mô hình cho không gian vectơ này sao cho có một trục cho mọi thuật ngữ trong từ vựng, và vì vậy không gian vectơ là V -dimensional, trong đó V là kích thước của từ vựng. Các vectơ sau đó về mặt khái niệm cũng phải là V -dimensional với một tính năng cho mọi thuật ngữ từ vựng. Tuy nhiên, vì vốn từ vựng có thể lớn (theo thứ tự V = 100.000 thuật ngữ), vectơ đặc trưng của tài liệu thường sẽ chỉ chứa các thuật ngữ xảy ra trong tài liệu đó và bỏ qua các thuật ngữ không có. Một vector tính năng như vậy được coi là thưa thớt .
Một ví dụ đại diện vector của một tài liệu có thể trông như thế này:
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
trong đó vectơ ví dụ này có id tài liệu (ví dụ 42), nhãn sự thật (ví dụ: chính trị) và danh sách các tính năng và giá trị tính năng bao gồm các cặp tần số thuật ngữ & thuật ngữ. Ở đây, có thể thấy rằng từ "vắng mặt" đã xảy ra 2 lần trong tài liệu này.
Có phải việc sử dụng Bag of Words bạn gán tần số từ cho phần tử ma trận thuật ngữ tài liệu và trong các phần tử ma trận thuật ngữ tài liệu Mô hình không gian khá chung chung miễn là các thao tác (sản phẩm chấm) trong không gian vectơ có ý nghĩa (trọng số tf-idf, đối với thí dụ)?
Bag of words là một bộ đại diện cho các từ duy nhất như một kiểm đếm. Thuật ngữ không gian vectơ là một vectơ boolean thưa thớt cũng ghi lại vị trí từ. Tôi nghĩ.