Nhiều người trong chúng ta cần phải đối phó với đầu vào của người dùng, truy vấn tìm kiếm và các tình huống trong đó văn bản đầu vào có khả năng chứa ngôn ngữ thô tục hoặc không mong muốn. Thường thì điều này cần phải được lọc ra.
Nơi nào người ta có thể tìm thấy một danh sách tốt các từ chửi thề trong các ngôn ngữ và phương ngữ khác nhau?
Có API nào có sẵn cho các nguồn chứa danh sách tốt không? Hoặc có thể một API chỉ đơn giản nói "có, cái này sạch" hoặc "không cái này bẩn" với một số tham số?
Một số phương pháp tốt để bắt những người đang cố lừa hệ thống, như $$, azz hoặc a55 là gì?
Điểm thưởng nếu bạn cung cấp giải pháp cho PHP. :)
Chỉnh sửa: Trả lời các câu trả lời đơn giản là tránh vấn đề lập trình:
Tôi nghĩ rằng có một nơi dành cho loại bộ lọc này khi, ví dụ, người dùng có thể sử dụng tìm kiếm hình ảnh công cộng để tìm hình ảnh được thêm vào nhóm cộng đồng nhạy cảm. Nếu họ có thể tìm kiếm "dương vật", thì họ có thể sẽ nhận được nhiều hình ảnh, vâng. Nếu chúng ta không muốn có hình ảnh về điều đó, thì việc ngăn chặn từ đó như một thuật ngữ tìm kiếm là một người gác cổng tốt, mặc dù phải thừa nhận rằng đó không phải là một phương pháp hoàn hảo. Lấy danh sách các từ ở vị trí đầu tiên là câu hỏi thực sự.
Vì vậy, tôi thực sự đang đề cập đến một cách để tìm ra một mã thông báo duy nhất có bẩn hay không và sau đó chỉ đơn giản là không cho phép nó. Tôi không bận tâm đến việc ngăn chặn một tình cảm như tài liệu tham khảo "hươu cao cổ dài" hoàn toàn vui nhộn. Không có gì bạn có thể làm ở đó. :)