Lọc thư rác, đặc biệt là trong email, đã được cách mạng bởi các mạng thần kinh, đây là một số bài viết cung cấp khả năng đọc tốt về chủ đề này:
Trên các mạng thần kinh và tương lai của thư rác AC Cosoi, MS Vlad, V. Sgarciu http: //ceai.srait.ro/index.php/ceai/article/viewFile/18/8
Phát hiện bộ lọc thư rác dựa trên từ thông minh sử dụng các mạng đa thần kinh Ann Nosseir, Khaled Nagati và Hồi giáo Taj-Eddin http://www.ijcsi.org/ con / IJCSI-10-2-1-17-21.pdf
Phát hiện thư rác bằng cách sử dụng mạng nơ ron thích ứng: Lý thuyết cộng hưởng thích ứng David Ndumiyana, Richard Gotora và Tarisai Mupamombe
http://onlineresearchjournals.org/JPESR/pdf/2013/apr/Ndumiyana%20et%20al.pdf
EDIT: Trực giác cơ bản đằng sau việc sử dụng mạng thần kinh để giúp lọc thư rác là bằng cách cung cấp trọng số cho các thuật ngữ dựa trên tần suất chúng được liên kết với thư rác.
Mạng lưới thần kinh có thể được đào tạo nhanh nhất trong một giám sát - bạn cung cấp rõ ràng việc phân loại câu trong tập huấn luyện - môi trường. Không đi sâu vào quá khứ, ý tưởng cơ bản có thể được minh họa bằng những câu sau:
Text = "Mất bằng sáng chế Viagra sẽ ảnh hưởng đến Pfizer như thế nào", Spam = false Text = "Viagra giá rẻ Mua ngay", Spam = true Text = "Hiệu thuốc trực tuyến Viagra Cialis Lipitor", Spam = true
Đối với mạng thần kinh hai giai đoạn, giai đoạn đầu tiên sẽ tính toán khả năng thư rác dựa trên nếu từ đó tồn tại trong câu. Vì vậy, từ ví dụ của chúng tôi:
viagra => 66% mua => 100% Pfizer => 0% vv ..
Sau đó, cho giai đoạn thứ hai, kết quả trong giai đoạn đầu tiên được sử dụng làm biến trong giai đoạn thứ hai:
viagra và mua => 100% Pfizer & viagra => 0%
Ý tưởng cơ bản này được thực hiện cho nhiều hoán vị của tất cả các từ trong dữ liệu đào tạo của bạn. Kết quả cuối cùng một khi được đào tạo về cơ bản chỉ là một phương trình dựa trên ngữ cảnh của các từ trong câu có thể xác định xác suất là thư rác. Đặt ngưỡng spam và lọc bất kỳ dữ liệu nào cao hơn ngưỡng nói.