Được rồi, trước hết, không chỉ có bằng chứng tích cực mà còn có bằng chứng tiêu cực. Một số từ làm cho một thông điệp email rất có thể là thư rác, một số từ làm cho nó rất có thể là thật. Những từ khác làm cho một tin nhắn rất có thể là thư rác bởi sự vắng mặt của chúng , trong khi những người khác có tác dụng ngược lại. Chẳng hạn, nếu bạn nghiên cứu về drosophila để kiếm sống và thường xuyên trao đổi với các đồng nghiệp về họ, thì sự hiện diện của thuật ngữ đó gần giống như một mật khẩu, bởi vì không có chiến dịch gửi thư hàng loạt nào có thể tùy chỉnh các văn bản của họ theo thói quen của bạn - điều đó sẽ tốt phá hủy tính kinh tế của quy mô khiến thư rác trở nên khả thi ngay từ đầu.
Ngoài ra, hiệu suất của bộ lọc không thể được đo chỉ bằng một số liệu. Phát hiện thư rác rất dễ dàng, thực sự tầm thường, nếu bạn chỉ đơn giản phân loại mọi thứ là thư rác - nhưng sau đó, các kết quả dương tính giả (phát hiện thư thật là thư rác) rất cao. Phát hiện không có gì giải quyết vấn đề đó, nhưng sau đó các tiêu cực sai (phân loại mẫu xấu là tốt) làm cho cuộc sống của bạn khốn khổ. Một bộ lọc tốt phải đạt được các giá trị tốt trên cả hai tổng số, điều này làm cho nó phức tạp hơn nhiều so với chỉ một bộ phát hiện siêu nhạy cảm của một cái gì đó.
Vì vậy, ngay từ đầu, bạn không chỉ có một 'Danh sách các từ xấu', mà ít nhất là bốn danh sách, và không chỉ một tiêu chí, mà ít nhất là hai tiêu chí. Cho đến nay, lọc Bayes thực sự là phương pháp đơn giản nhất thực hiện tốt điều này. Nếu bạn tìm thấy một cái tốt hơn, bằng mọi cách hãy nghe nó.