theo cuốn sách của Dan Jurafsky và James H. Martin :
Tuy nhiên, hóa ra tần số đơn giản đó không phải là thước đo liên kết tốt nhất giữa các từ. Một vấn đề là tần số thô rất sai lệch và không phân biệt đối xử. Nếu chúng ta muốn biết những loại bối cảnh nào được chia sẻ bởi quả mơ và quả dứa nhưng không phải bằng kỹ thuật số và thông tin, chúng ta sẽ không nhận được sự phân biệt đối xử tốt từ những từ như, nó, hoặc chúng, xảy ra thường xuyên với tất cả các loại từ và không có thông tin về bất kỳ từ cụ thể nào. "
đôi khi chúng ta thay thế tần số thô này bằng thông tin lẫn nhau theo chiều dương:
PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)
Bản thân PMI cho thấy mức độ quan sát của một từ w với một từ ngữ cảnh C có thể so sánh với việc quan sát chúng một cách độc lập đến mức nào. Trong PPMI, chúng tôi chỉ giữ các giá trị dương của PMI. Chúng ta hãy nghĩ về khi nào PMI là + hoặc - và tại sao chúng ta chỉ giữ những tiêu cực:
PMI tích cực có nghĩa là gì?
P(w,c)(P(w)P(c))>1
P(w,c)>(P(w)P(c))
nó xảy ra khi và xảy ra lẫn nhau nhiều hơn là cá nhân như đá và bóng. Chúng tôi muốn giữ những thứ này!wc
PMI tiêu cực có nghĩa là gì?
P(w,c)(P(w)P(c))<1
P(w,c)<(P(w)P(c))
nó có nghĩa là cả và hoặc một trong số chúng có xu hướng xảy ra riêng lẻ! Nó có thể chỉ ra các số liệu thống kê không đáng tin cậy do dữ liệu hạn chế, nếu không, nó hiển thị các sự cố không chính xác, ví dụ: 'bóng' và 'bóng'. ('the' xảy ra với hầu hết các từ quá.)wc
PMI hoặc đặc biệt là PPMI giúp chúng tôi nắm bắt các tình huống như vậy với sự xuất hiện thông tin.