Có cách nào để spamassassin ghi điểm những dòng trên cùng của nội dung thư nặng hơn không?

Rất nhiều thư rác đang xâm nhập qua bộ lọc trên máy chủ thư mà tôi chạy với thủ thuật tương đối đơn giản là bắt đầu với một vài dòng giảm cân (cực kỳ rõ ràng) hoặc văn bản lừa đảo khác ở trên cùng, tiếp theo là phần văn bản lớn hơn từ tài liệu lập trình - hoặc, ác nhất trong tất cả, văn bản được loại bỏ từ Stack Exchange . Tốt nhất, Spamassassin coi đây là BAYES_50, và thực tế là phần còn lại của các tin nhắn được xây dựng đủ cẩn thận để chúng không bị kích hoạt. (Ví dụ: các tiêu đề là tối thiểu và chính xác.) Thông thường, các đoạn trích được bao gồm đủ chặt chẽ với lợi ích hợp pháp của tôi rằng thông điệp tổng thể được ghi là BAYES_00, bởi vì các mã thông báo rất spam chỉ bị lấn át bởi cách giải quyết vấn đề sysadmin.

Phần trên rõ ràng là spam (và trên thực tế có xu hướng rất giống với các tin nhắn rác đã được nhận và đào tạo trước đó) đến nỗi tôi rất ngạc nhiên rằng nó đã vượt qua - nhưng rõ ràng là như vậy. Có vẻ như một đường chuyền riêng biệt ghi được 25 dòng (hoặc hơn) của tin nhắn và cân nhắc rằng sẽ giải quyết được vấn đề. Có cách nào để làm việc này không?

Một số người đã đề nghị viết biểu thức chính quy tùy chỉnh. Tôi không muốn tham gia vào điều này, vì đây là một trận thua liên tục. Đó là những gì mọi người đã làm trước khi phân loại thư rác Bayes được sử dụng rộng rãi và nói chung là rất khủng khiếp. Không có con người có thể theo kịp . Nó không hiệu quả hơn nhiều so với việc chỉ nhấn phím xóa cho mỗi tin nhắn rác và phần nhiều công việc của tôi.

Lọc thư rác Bayesian hoạt động. Nó thậm chí hoạt động với thư rác này , nếu tôi tách ra phần " phía trên nếp gấp " và chỉ phân tích phần đó, với phần giải mã / chaff bị loại bỏ. Câu hỏi là: làm thế nào tôi có thể khiến Spamassassin làm điều đó?

spam spamassassin

— mattdm
nguồn

Là bộ lọc bayesian được kích hoạt?

— Kondybas

@kondybas Vâng. Và đây là một phần của vấn đề, vì văn bản đệm vượt trội hơn phần spam bởi số lượng tuyệt đối.

— mattdm

MTA nào bạn đã sử dụng?

— Kondybas

Bạn đã thực hiện bao nhiêu khóa đào tạo Bayes về các thư rác này? Tôi hy vọng thuật toán Bayes sẽ giải quyết nó sớm.

— mc0e

@ mc0e Không thể. Nó không phải là thông minh kỳ diệu. Một hệ thống máy học tinh vi hơn có thể có thể làm điều đó, nhưng tôi nghĩ, "ừm, một mẹo đơn giản" mà tôi đang yêu cầu ở đây cũng sẽ như vậy.

— mattdm

Bản thân tôi là một chiến binh chống thư rác (nhỏ). Và vì nhiều vấn đề như bạn gặp phải, cuối cùng tôi đã tự mình làm những thứ bẩn thỉu, nhiều năm trước.

Bây giờ, đây không phải là một câu trả lời cho câu hỏi cụ thể của bạn, mà là vấn đề cụ thể của bạn. Vì vậy, xin đừng downvote vì điều này.

Cách tôi giải quyết vấn đề này là sửa đổi tập lệnh sa_filter-post.pl, được sử dụng bởi máy chủ XMail, gọi spamc trên tệp email và thực hiện một số nội dung nhỏ ở đó, để xử lý không phải toàn bộ tệp, mà là các phần cụ thể của nó, dựa trên một số quy tắc cụ thể (mã hóa cứng bởi tôi). vâng, regex'es nhưng cho đến nay họ làm việc cho tôi (tôi có một loạt các kịch bản khác trước và sau này để có thể đóng vai trò)

Ví dụ, tôi có một regex loại bỏ các phonenumbers. Người gửi thư rác đã để lại đầy đủ, do đó, đi thẳng ra để xử lý chỉ 400 ký tự giữa của tệp (tôi đã nhận được 400 bản dùng thử và lỗi thực sự, bắt đầu từ 200). Lưu ý rằng thật khó để chọn ra giữa những gì bạn thấy, so với những gì trong tệp.

Có một cái khác có cùng cấu trúc của bảng html với "sản phẩm", tiêu đề giả và chân trang không sử dụng được, vì vậy tôi loại bỏ chúng ra, tôi loại bỏ cột nhận xét "sản phẩm" và sau đó chuyển nó vào spamc.

Và như vậy, bạn có được hình ảnh.

Nhưng không phải tất cả các quy tắc đều hoàn hảo, vì vậy tôi thực hiện một phép thuật nhỏ ở đây bằng cách gán điểm riêng cho từng quy tắc, mà tôi mã hóa cứng và điều chỉnh lên hoặc xuống khi cần, dựa trên cách xử lý quy tắc (và đôi khi tôi sẽ xóa tất cả các quy tắc cùng nhau ). Sau đó tôi sửa đổi điểm SA bằng điểm riêng. Lý do tôi làm điều này là vì một số lý do SA chỉ cho điểm như 4. một cái gì đó để xóa thư rác rõ ràng theo quy tắc mà tôi cũng có cảm xúc mạnh mẽ để bắt chúng đúng. Vì vậy, tôi đã cho họ tăng thêm một chút để vượt qua 5.0, cùng với một số tập lệnh xử lý hậu kỳ có thể xem xét một số biến khác (nguồn email, mục tiêu của email, cấu trúc của tiêu đề, v.v.), nó ít nhiều giết chết thư rác ngoài.

Bây giờ tôi nhận ra đây không phải là điều bạn đang hy vọng, nhưng trong trường hợp của tôi, nó mang lại cho tôi toàn bộ sức mạnh so với những gì được quét, chỉ là tôi cần thiết lập mọi thứ bằng tay và sau đó thỉnh thoảng làm một chút up trên các giá trị / regex'es.

Nhưng trong trường hợp của bạn, mọi thứ dễ dàng hơn rất nhiều vì tất cả những gì bạn phải làm là sử dụng tập lệnh bash đơn giản sẽ được gọi bởi MX thay vì spamc và tập lệnh đó sử dụng lệnh head để chỉ lấy số byte đầu tiên bạn muốn và chuyển tập tin tạm thời đó đến spamc.

Nội dung của tập lệnh sẽ phụ thuộc một chút vào máy chủ thư của bạn, nhưng điều đó không khó để tìm ra.

(Lưu ý rằng tôi chỉ nói nhiều về thiết lập của mình để bạn có thể thấy các khả năng của tùy chọn này)

Tái bút: Cá nhân tôi chưa bao giờ nhận được loại email spam này (với các tính năng liên quan đến lập trình trong đó), vì vậy tôi tự hỏi liệu bạn có chọc giận ai đó không và bây giờ bạn đã bị nhắm mục tiêu. Điều đó sẽ giải thích các email được chế tạo đặc biệt. Lý do tôi nghĩ về khả năng này là vì nhiều năm trước, khi tôi hoạt động rất tích cực trên nhiều diễn đàn và nhóm CNTT khác nhau, tôi đã làm phiền một số người và thỉnh thoảng tôi thường sử dụng các loại tấn công khác nhau trên máy chủ của mình, bao gồm cả email spam . Nhưng hồi đó thì những kẻ ngốc không thông minh này :)

— đúng
nguồn