Tôi đang cố gắng đưa ra một cách tiếp cận để phát hiện quảng cáo lừa đảo trên trang web của mình. Tôi nghĩ rằng vấn đề có nhiều điểm chung với việc phát hiện email spam (trong đó phân loại Bayes ngây thơ là một giải pháp phổ biến) vì nhiều tín hiệu cho thấy lừa đảo sẽ được tìm thấy trong văn bản của quảng cáo.
Tuy nhiên, có một số thông tin nhất định có thể là các chỉ số lừa đảo tốt, nhưng tôi không chắc liệu / cách phân loại Bayes có thể sử dụng chúng hay không, bởi vì chúng liên quan đến các giá trị số (với các giá trị ở cực trị của phạm vi là đáng ngờ) hơn các giá trị nhị phân đơn giản tương ứng với sự hiện diện hoặc vắng mặt của một từ trong văn bản.
Ví dụ: nhiều quảng cáo lừa đảo có giá của mặt hàng được đặt rất thấp (để thu hút nhiều lượt xem), vì vậy tôi muốn giá thấp hơn giá bình thường là một chỉ báo mạnh mẽ cho thấy quảng cáo có thể là lừa đảo.
Bayes có còn phù hợp với yêu cầu của tôi không, nếu không thì bạn có thể đề xuất một cách tiếp cận khác không?