Lọc thư rác từ dữ liệu đã truy xuất


8

Tôi đã từng nghe rằng lọc thư rác bằng cách sử dụng danh sách đen không phải là một cách tiếp cận tốt, vì một số người dùng đang tìm kiếm các mục trong tập dữ liệu của bạn có thể đang tìm kiếm thông tin cụ thể từ các nguồn bị chặn. Ngoài ra, nó sẽ trở thành gánh nặng khi liên tục xác nhận trạng thái hiện tại của mỗi người gửi thư rác bị chặn, kiểm tra xem trang web / tên miền có còn phổ biến dữ liệu spam hay không.

Xem xét rằng bất kỳ cách tiếp cận nào cũng phải hiệu quả và có thể mở rộng, để hỗ trợ lọc trên các bộ dữ liệu rất lớn, các chiến lược có sẵn để loại bỏ thư rác theo cách không thiên vị là gì?

Chỉnh sửa : nếu có thể, bất kỳ ví dụ nào về chiến lược, ngay cả khi chỉ là trực giác đằng sau nó, sẽ rất được hoan nghênh cùng với câu trả lời.

Câu trả lời:


5

Lọc thư rác, đặc biệt là trong email, đã được cách mạng bởi các mạng thần kinh, đây là một số bài viết cung cấp khả năng đọc tốt về chủ đề này:

Trên các mạng thần kinh và tương lai của thư rác AC Cosoi, MS Vlad, V. Sgarciu http: //ceai.srait.ro/index.php/ceai/article/viewFile/18/8

Phát hiện bộ lọc thư rác dựa trên từ thông minh sử dụng các mạng đa thần kinh Ann Nosseir, Khaled Nagati và Hồi giáo Taj-Eddin http://www.ijcsi.org/ con / IJCSI-10-2-1-17-21.pdf

Phát hiện thư rác bằng cách sử dụng mạng nơ ron thích ứng: Lý thuyết cộng hưởng thích ứng David Ndumiyana, Richard Gotora và Tarisai Mupamombe http://onlineresearchjournals.org/JPESR/pdf/2013/apr/Ndumiyana%20et%20al.pdf

EDIT: Trực giác cơ bản đằng sau việc sử dụng mạng thần kinh để giúp lọc thư rác là bằng cách cung cấp trọng số cho các thuật ngữ dựa trên tần suất chúng được liên kết với thư rác.

Mạng lưới thần kinh có thể được đào tạo nhanh nhất trong một giám sát - bạn cung cấp rõ ràng việc phân loại câu trong tập huấn luyện - môi trường. Không đi sâu vào quá khứ, ý tưởng cơ bản có thể được minh họa bằng những câu sau:

Text = "Mất bằng sáng chế Viagra sẽ ảnh hưởng đến Pfizer như thế nào", Spam = false Text = "Viagra giá rẻ Mua ngay", Spam = true Text = "Hiệu thuốc trực tuyến Viagra Cialis Lipitor", Spam = true

Đối với mạng thần kinh hai giai đoạn, giai đoạn đầu tiên sẽ tính toán khả năng thư rác dựa trên nếu từ đó tồn tại trong câu. Vì vậy, từ ví dụ của chúng tôi:

viagra => 66% mua => 100% Pfizer => 0% vv ..

Sau đó, cho giai đoạn thứ hai, kết quả trong giai đoạn đầu tiên được sử dụng làm biến trong giai đoạn thứ hai:

viagra và mua => 100% Pfizer & viagra => 0%

Ý tưởng cơ bản này được thực hiện cho nhiều hoán vị của tất cả các từ trong dữ liệu đào tạo của bạn. Kết quả cuối cùng một khi được đào tạo về cơ bản chỉ là một phương trình dựa trên ngữ cảnh của các từ trong câu có thể xác định xác suất là thư rác. Đặt ngưỡng spam và lọc bất kỳ dữ liệu nào cao hơn ngưỡng nói.


1
+1 Cảm ơn bạn đã tham khảo. Bạn có bất kỳ ví dụ nhỏ nào, hoặc có thể chỉ hiển thị một trực giác đằng sau một trong những cách tiếp cận không? Tôi không quen thuộc với các mạng thần kinh, nhưng tôi có thể kiểm tra xem nếu ví dụ này đòi hỏi nền tảng kiến ​​thức như vậy.
Rubens

Bạn có thể cụ thể hơn về trường hợp sử dụng của bạn? Chiến lược có thể khác nhau tùy thuộc vào cách bạn có xu hướng thực hiện giải pháp.
neone4373

Ý tôi là, tôi chỉ muốn xem ý tưởng đằng sau một cách tiếp cận khác là gì. Ví dụ, nếu tôi muốn nói với bạn những gì được thực hiện bằng cách sử dụng danh sách đen (mà chúng tôi biết là không tốt), tôi có thể mô tả thuật toán như: quét tập dữ liệu tìm kiếm các mục có chứa "viagra"; thêm các mục như vậy vào danh sách đen. Tôi chỉ muốn xem một mô tả cấp cao về phương pháp / thuật toán . Họ có thu thập thông tin sử dụng mạng spam và đưa vào trình phân loại mạng thần kinh không, hoặc họ làm gì?
Rubens

1

Danh sách đen không có giá trị vì một số lý do:

  1. Chúng dễ dàng thiết lập và mở rộng quy mô - đó chỉ là một kho lưu trữ khóa / giá trị và bạn có thể chỉ cần sử dụng lại một số logic bộ nhớ đệm của mình để thực hiện cơ bản nhất.
  2. Tùy thuộc vào quy mô và loại tấn công spam, có thể sẽ có một số thuật ngữ hoặc URL rất cụ thể đang được sử dụng. Sẽ nhanh hơn nhiều khi ném thuật ngữ đó vào danh sách đen hơn là chờ mô hình của bạn thích nghi.
  3. Bạn có thể loại bỏ các mục ngay khi bạn thêm chúng.
  4. Mọi người đều hiểu cách họ làm việc và bất kỳ quản trị viên nào cũng có thể sử dụng chúng.

Chìa khóa để chống thư rác là theo dõi . Đảm bảo rằng bạn có một số loại giao diện hiển thị các mục trong danh sách đen của bạn, tần suất chúng bị tấn công trong 10 phút / giờ / ngày / tháng cuối cùng và khả năng dễ dàng thêm và xóa các mục.

Bạn sẽ muốn kết hợp một số mô hình và chiến thuật phát hiện thư rác khác nhau. Mạng lưới thần kinh dường như là một gợi ý tốt và tôi khuyên bạn nên xem xét các mẫu hành vi người dùng ngoài nội dung. Người bình thường không làm những việc như gửi hàng loạt 1.000 email mỗi 30 giây trong 12 giờ liên tục.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.