Tôi đang tạo mẫu cho mô hình từ 'túi Naive Bayes của riêng mình và tôi có một câu hỏi về việc tính toán xác suất tính năng.
Giả sử tôi có hai lớp, tôi sẽ chỉ sử dụng thư rác và không phải thư rác vì đó là những gì mọi người sử dụng. Và hãy lấy từ "viagra" làm ví dụ. Tôi có 10 email trong bộ đào tạo của mình, 5 thư rác và 5 thư rác. "viagra" xuất hiện trong tất cả 5 tài liệu spam. Trong một trong những tài liệu đào tạo, nó xuất hiện 3 lần (đây là câu hỏi của tôi), vì vậy đó là 7 lần xuất hiện trong tổng số thư rác. Trong tập huấn luyện không spam, nó xuất hiện 1 lần.
Nếu tôi muốn ước tính p (viagra | spam) thì đơn giản là:
p (viagra | spam) = 5 tài liệu spam chứa viagra / 5 tài liệu spam tổng cộng = 1
Nói cách khác, việc một tài liệu được đề cập đến viagra 3 lần thay vì một lần thực sự không quan trọng?
Chỉnh sửa: Đây là một bài đăng blog mà tác giả sử dụng cách tiếp cận tôi vừa trình bày: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes- classifier-in-50-lines /
Và đây là một bài đăng trên blog mà tác giả nói: p (viagra | spam) = 7 đề cập đến spam viagra / 8 tổng số đề cập http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -naive-bayes-classifier-to-document-class-problems
Và sau đó, một trong những câu trả lời dưới đây cho biết nó phải là: p (viagra | spam) = 7 viagra đề cập đến thư rác / tổng số thuật ngữ trong thư rác
Bất cứ ai cũng có thể liên kết đến một nguồn đưa ra ý kiến về điều này?