Naive Bayes có xác suất: tôi có nên nhân đôi số từ không?


12

Tôi đang tạo mẫu cho mô hình từ 'túi Naive Bayes của riêng mình và tôi có một câu hỏi về việc tính toán xác suất tính năng.

Giả sử tôi có hai lớp, tôi sẽ chỉ sử dụng thư rác và không phải thư rác vì đó là những gì mọi người sử dụng. Và hãy lấy từ "viagra" làm ví dụ. Tôi có 10 email trong bộ đào tạo của mình, 5 thư rác và 5 thư rác. "viagra" xuất hiện trong tất cả 5 tài liệu spam. Trong một trong những tài liệu đào tạo, nó xuất hiện 3 lần (đây là câu hỏi của tôi), vì vậy đó là 7 lần xuất hiện trong tổng số thư rác. Trong tập huấn luyện không spam, nó xuất hiện 1 lần.

Nếu tôi muốn ước tính p (viagra | spam) thì đơn giản là:

p (viagra | spam) = 5 tài liệu spam chứa viagra / 5 tài liệu spam tổng cộng = 1

Nói cách khác, việc một tài liệu được đề cập đến viagra 3 lần thay vì một lần thực sự không quan trọng?


Chỉnh sửa: Đây là một bài đăng blog mà tác giả sử dụng cách tiếp cận tôi vừa trình bày: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes- classifier-in-50-lines /

Và đây là một bài đăng trên blog mà tác giả nói: p (viagra | spam) = 7 đề cập đến spam viagra / 8 tổng số đề cập http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -naive-bayes-classifier-to-document-class-problems

Và sau đó, một trong những câu trả lời dưới đây cho biết nó phải là: p (viagra | spam) = 7 viagra đề cập đến thư rác / tổng số thuật ngữ trong thư rác

Bất cứ ai cũng có thể liên kết đến một nguồn đưa ra ý kiến ​​về điều này?

Câu trả lời:


4

Nói cách khác, việc một tài liệu được đề cập đến viagra 3 lần thay vì một lần thực sự không quan trọng?

Nó không thành vấn đề. Các đa thức Naive Bayes mô hình sẽ đưa vào tài khoản mỗi lần xuất hiện của một mã thông báo, trong khi Bernoulli Naive Bayes mô hình không (ví dụ cho mô hình thứ hai, 3 lần xuất hiện của "viagra" cũng giống như 1 sự xuất hiện của "viagra").

Dưới đây là hai minh họa cũng như bảng so sánh từ {1}:

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

{1} giới thiệu gọn gàng Naive Bayes để phân loại văn bản, cũng như mô hình Naive Bayes đa chiều và mô hình Bernoulli Naive Bayes.


Người giới thiệu:


1

Nó phụ thuộc vào mô hình ngây thơ cụ thể mà bạn áp dụng. Nói chung, đối với Phân loại văn bản, bạn không muốn xem xét việc lặp lại các thuật ngữ, vì vậy câu trả lời là có.

Điểm khác là bạn đang xem xét xác suất dựa trên không gian sự kiện tài liệu. Bạn cũng có thể làm điều đó dựa trên không gian hạn:

p (viagra | spam) = 5 lần thuật ngữ spam trong thư rác lớp / 50 thuật ngữ trong lớp

Bạn có rất nhiều thông tin trong [tờ giấy] này ( http://echo.edres.org:8080/betsy/mccallum1.pdf )


0

Tôi nghĩ nó phụ thuộc vào ý nghĩa chính xác của bạn đối với p (viagra | spam) và cách bạn mô hình hóa dữ liệu.

Như đã viết, tôi sẽ hiểu ý nghĩa của bạn là 'xác suất từ ​​viagra được nhắc đến ít nhất một lần trong một tin nhắn, với thông điệp này là thư rác'. Trong trường hợp đó, vâng, thực tế là một tài liệu được đề cập đến viagra ba lần không có hiệu lực. Bạn đã định nghĩa một mô hình không chú ý đến những sự thật như vậy.

Tất nhiên, bạn có thể có một mô hình khác. Ví dụ, thay vì viagra được đại diện bởi một biến nhị phân (hiện tại / vắng mặt), nó có thể đại diện cho số lần xuất hiện của từ trong tin nhắn. Trong trường hợp đó, từ dữ liệu thô của bạn, bạn ước tính tần suất theo kinh nghiệm của một cái gì đó như

p (viagra = 0 | spam) = 0

p (viagra = 1 | spam) = 4/5

p (viagra = 2 | spam) = 0

p (viagra = 3 | spam) = 1/5

Vân vân.

Tôi không nói rằng đó là một cách tốt hơn để làm điều đó. Tôi chỉ minh họa một tình huống thay thế trong đó trực giác của bạn khi thấy viagra được đề cập ba lần là có liên quan.

Một ví dụ thực tế hơn có thể là 'Tần số nghịch đảo tần số tài liệu đảo ngược', đây là một phương pháp chú ý nhiều đến tần suất của một từ trong tài liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.