Tại sao trình phân loại Bayes được sử dụng để lọc thư rác?

Tôi đã đọc về lọc thư rác Bayes và tôi nghĩ rằng tôi hiểu lý thuyết, nhưng tôi không hiểu tại sao cách tiếp cận này lại cần thiết để tính toán khả năng thư bị spam, vì nó chứa một từ nhất định.

Nếu chúng tôi có một tập hợp các tin nhắn đã được người dùng phân loại là 'spam' hoặc 'ham' và chúng tôi nhận được một tin nhắn mới (chứa từ đã chọn) mà chúng tôi muốn phân loại, thì chắc chắn tất cả những gì chúng ta cần làm là chia số trong số các tin nhắn rác có chứa từ đó, bằng tổng số tin nhắn có chứa từ đó ... Tại sao tất cả các phương trình?

algorithms math email

— cơ sở mã hóa
nguồn

Đăng bài này lên CrossValidated - xác suất nhận được câu trả lời của bạn là nhiều hơn. Bạn cũng có thể biết cách các bộ lọc Bayes hoạt động

— Ubermensch

Tất cả các phương trình đều có một trong hai phương trình liên quan đến phân loại Bayes và nó chính thức hóa gần như chính xác những gì bạn đã nói trong đoạn thứ hai của bạn (chỉ thực hiện chính xác để tính xác suất trước).

— Konrad Rudolph

@Ubermensch - Ý bạn là CrossValidated ? * 8 ')

— Đánh dấu gian hàng

Được rồi, trước hết, không chỉ có bằng chứng tích cực mà còn có bằng chứng tiêu cực. Một số từ làm cho một thông điệp email rất có thể là thư rác, một số từ làm cho nó rất có thể là thật. Những từ khác làm cho một tin nhắn rất có thể là thư rác bởi sự vắng mặt của chúng , trong khi những người khác có tác dụng ngược lại. Chẳng hạn, nếu bạn nghiên cứu về drosophila để kiếm sống và thường xuyên trao đổi với các đồng nghiệp về họ, thì sự hiện diện của thuật ngữ đó gần giống như một mật khẩu, bởi vì không có chiến dịch gửi thư hàng loạt nào có thể tùy chỉnh các văn bản của họ theo thói quen của bạn - điều đó sẽ tốt phá hủy tính kinh tế của quy mô khiến thư rác trở nên khả thi ngay từ đầu.

Ngoài ra, hiệu suất của bộ lọc không thể được đo chỉ bằng một số liệu. Phát hiện thư rác rất dễ dàng, thực sự tầm thường, nếu bạn chỉ đơn giản phân loại mọi thứ là thư rác - nhưng sau đó, các kết quả dương tính giả (phát hiện thư thật là thư rác) rất cao. Phát hiện không có gì giải quyết vấn đề đó, nhưng sau đó các tiêu cực sai (phân loại mẫu xấu là tốt) làm cho cuộc sống của bạn khốn khổ. Một bộ lọc tốt phải đạt được các giá trị tốt trên cả hai tổng số, điều này làm cho nó phức tạp hơn nhiều so với chỉ một bộ phát hiện siêu nhạy cảm của một cái gì đó.

Vì vậy, ngay từ đầu, bạn không chỉ có một 'Danh sách các từ xấu', mà ít nhất là bốn danh sách, và không chỉ một tiêu chí, mà ít nhất là hai tiêu chí. Cho đến nay, lọc Bayes thực sự là phương pháp đơn giản nhất thực hiện tốt điều này. Nếu bạn tìm thấy một cái tốt hơn, bằng mọi cách hãy nghe nó.

— Kilian Foth
nguồn