Những ưu và nhược điểm của việc áp dụng thông tin lẫn nhau theo chiều trên một ma trận đồng biến từ trước SVD là gì?


11

Một cách để tạo ra các từ nhúng như sau ( gương ):

  1. Nhận một tập đoàn, ví dụ: "Tôi thích bay. Tôi thích NLP. Tôi thích học sâu."
  2. Xây dựng ma trận cooccurrence từ nó:

nhập mô tả hình ảnh ở đây

  1. Thực hiện SVD trên và giữ các cột đầu tiên của U.Xk

nhập mô tả hình ảnh ở đây

Mỗi hàng của hàm con sẽ là từ nhúng của từ mà hàng đại diện (hàng 1 = "I", hàng 2 = "như", cách).U1:|V|,1:k

Giữa các bước 2 và 3, đôi khi thông tin lẫn nhau được áp dụng (ví dụ: A. Herbelot và EM Vecchi. 2015. Xây dựng một thế giới chung: Ánh xạ phân phối đến các không gian ngữ nghĩa lý thuyết mô hình . Trong Kỷ yếu Hội thảo 2015 về Phương pháp thực nghiệm trong Xử lý ngôn ngữ tự nhiên Lisbon, Bồ Đào Nha .).

Những ưu và nhược điểm của việc áp dụng thông tin lẫn nhau theo chiều trên một ma trận đồng biến từ trước SVD là gì?

Câu trả lời:


11

theo cuốn sách của Dan Jurafsky và James H. Martin :

Tuy nhiên, hóa ra tần số đơn giản đó không phải là thước đo liên kết tốt nhất giữa các từ. Một vấn đề là tần số thô rất sai lệch và không phân biệt đối xử. Nếu chúng ta muốn biết những loại bối cảnh nào được chia sẻ bởi quả mơ và quả dứa nhưng không phải bằng kỹ thuật số và thông tin, chúng ta sẽ không nhận được sự phân biệt đối xử tốt từ những từ như, nó, hoặc chúng, xảy ra thường xuyên với tất cả các loại từ và không có thông tin về bất kỳ từ cụ thể nào. "

đôi khi chúng ta thay thế tần số thô này bằng thông tin lẫn nhau theo chiều dương:

PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)

Bản thân PMI cho thấy mức độ quan sát của một từ w với một từ ngữ cảnh C có thể so sánh với việc quan sát chúng một cách độc lập đến mức nào. Trong PPMI, chúng tôi chỉ giữ các giá trị dương của PMI. Chúng ta hãy nghĩ về khi nào PMI là + hoặc - và tại sao chúng ta chỉ giữ những tiêu cực:

PMI tích cực có nghĩa là gì?

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • nó xảy ra khi và xảy ra lẫn nhau nhiều hơn là cá nhân như đá và bóng. Chúng tôi muốn giữ những thứ này!wc

PMI tiêu cực có nghĩa là gì?

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • nó có nghĩa là cả và hoặc một trong số chúng có xu hướng xảy ra riêng lẻ! Nó có thể chỉ ra các số liệu thống kê không đáng tin cậy do dữ liệu hạn chế, nếu không, nó hiển thị các sự cố không chính xác, ví dụ: 'bóng' và 'bóng'. ('the' xảy ra với hầu hết các từ quá.)wc

PMI hoặc đặc biệt là PPMI giúp chúng tôi nắm bắt các tình huống như vậy với sự xuất hiện thông tin.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.