Hiểu biết về vịnh ngây thơ: tính toán các xác suất có điều kiện


7

Đối với một nhiệm vụ về phân tích tình cảm, giả sử chúng ta có một số lớp được đại diện bởi và các tính năng .ci

Chúng ta có thể biểu diễn xác suất có điều kiện của mỗi lớp là: trong đó đại diện cho mỗi tính năng và là lớp chúng ta có. Sau đó, theo kinh nghiệm, chúng ta có thể biểu diễn Các thầy tu của chúng ta cho mỗi lớp sau đó được đưa ra bởi: trong đó:

P(c|wi)=P(wi|c)P(c)P(wi)
wic
P(wi|c)=ncinc
P(wi)=nin
P(c)=ncn

n là tổng số tính năng trong tất cả các lớp.

nci đại diện cho số lượng tính năng của trong lớp .ic

nc là tổng số tính năng cho lớp và

ni là tổng số tính năng cho tất cả các lớp.

Sự hiểu biết của tôi về những điều trên có đúng không? Vì vậy, với các xác suất cho mỗi từ, tôi giả định rằng các từ này là độc lập, vì vậy tôi chỉ cần nhân mỗi từ trong một tài liệu cho một lớp nhất định, tức là để tính đó là số lượng từ trong tài liệu. Điều này có đúng không?P(c|wi)P(c|wi),iNN

Để thực sự tính toán xác suất có điều kiện bằng số, nó có đủ để làm như sau không:

P(c|wi)=P(wi|c)P(c)P(wTôi)= =ncTôincncnnnTôi= =ncTôinTôi

Phần cuối cùng của phương trình có vẻ hơi đáng ngờ đối với tôi vì nó có vẻ quá đơn giản để tính toán cho một xác suất khá phức tạp.

Câu trả lời:


4

Công thức của bạn là chính xác cho một wTôi, nhưng nếu bạn muốn phân loại tài liệu, bạn cần tính toán P(c|w1,Giáo dục,wN).

Sau đó bạn có

P(c|w1,Giáo dục,wN)= =P(c)P(w1,Giáo dục,wN|c)P(w1,Giáo dục,wN)= =P(c)ΠTôi= =1NP(wTôi|c)P(w1,Giáo dục,wN)ΠTôi= =1NP(c|wTôi)

trong đó phương trình thứ hai giữ vì giả định Bayes ngây thơ.

Đối với mục đích phân loại, bạn có thể bỏ qua P(w1,Giáo dục,wN)bởi vì nó là hằng số (cho dữ liệu). Công thức vẫn đơn giản ("ngây thơ") nhưng không đơn giản hóa nhiều như vậy.

Phần cuối cùng của phương trình có vẻ hơi đáng ngờ đối với tôi vì nó có vẻ quá đơn giản để tính toán cho một xác suất khá phức tạp.

Hãy nhớ rằng trong khi Naïve Bayes là một bộ phân loại hợp lý cho nhiều ứng dụng, thì xác suất được tạo ra thường không mang tính đại diện.


Cảm ơn câu trả lời của bạn. Trong các chương trình thực tế, tại sao kết quả này không thể đạt được? Tôi đã thấy nhiều triển khai của vịnh ngây thơ và không ai trong số họ trực tiếp đi tính toánncTôimột từ.
dùng19241256

không chắc chắn tôi hiểu câu hỏi ... bằng cách này hay cách khác nó sẽ được đưa xuống để đếm. bạn có thể đưa ra một ví dụ không?
oW_
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.