Chiến thuật đối phó với robot hoạt động sai

Tôi có một trang web, vì lý do quy định, có thể không được lập chỉ mục hoặc tìm kiếm tự động. Điều này có nghĩa là chúng ta cần phải tránh xa tất cả các robot và ngăn không cho chúng làm hỏng trang web.

Rõ ràng là chúng ta đã có một tệp robot.txt không đồng ý ngay từ đầu. Tuy nhiên, quan sát tệp robot.txt là điều mà chỉ những robot hoạt động tốt mới làm được. Gần đây, chúng tôi đã có một số vấn đề với các robot hoạt động kém hơn. Tôi đã cấu hình Apache để cấm một vài tác nhân người dùng nhưng khá dễ để khắc phục điều đó.

Vì vậy, câu hỏi là, có cách nào để cấu hình Apache (có lẽ bằng cách cài đặt một mô-đun nào đó không?) Để phát hiện hành vi giống như robot và phản hồi? Còn ý tưởng nào khác không?

Hiện tại tất cả những gì tôi có thể làm là cấm các địa chỉ IP dựa trên việc kiểm tra nhật ký thủ công và đó đơn giản không phải là một chiến lược dài hạn khả thi.

apache web-crawlers user-agent

— Kris
nguồn

Cho rằng bạn đang hỏi về các mô-đun Apache (kiểm tra mod_evasive) và giải pháp của bạn có thể sẽ liên quan đến một số quy tắc phân tích nhật ký và iptables tùy chỉnh, chủ đề này có thể là ứng cử viên tốt hơn cho ServerFault.com nếu bạn có câu hỏi về việc chặn các hành vi bot cụ thể.

— danlefree

Câu trả lời:

Bạn có thể liên kết đến một trang ẩn mà khi truy cập, sẽ ghi lại địa chỉ IP của người dùng và bot của bot và sau đó nối một hoặc cả hai vào một tệp .htaccess chặn chúng vĩnh viễn. Nó tự động để bạn không phải làm bất cứ điều gì để duy trì nó.

— John Conde
nguồn

Đó là một ý tưởng rất thú vị, mặc dù trong trường hợp họ đang sử dụng một tác nhân người dùng rất chung chung, bạn sẽ không muốn tự động khóa bất kỳ tác nhân người dùng nào.

— Kris

Tôi sẽ dính vào địa chỉ IP sau đó. Ngoài ra, nếu bạn sử dụng địa chỉ I và thấy một mẫu từ một khối IP, bạn có thể dễ dàng chặn tất cả chúng bằng một quy tắc đơn giản thay vì duy trì một danh sách dài các IP riêng lẻ.

— John Conde

Bạn có thể sử dụng phương pháp được mô tả để ngăn chặn các bot xấu thu thập dữ liệu trang web của bạn. Nhưng 1) Có thể bỏ qua (các bot xấu - và chủ của chúng - có thể học cách xác định mật ong và biết cách tránh chúng); và 2) Phương pháp này cũng có thể chặn người dùng hợp pháp hóa những người đã được phân bổ lại IP đã bị đưa vào danh sách đen là thuộc về các bot hoạt động sai. Nếu bạn có nghĩa vụ pháp lý hoặc quy định để không lập chỉ mục hoặc tự động tìm kiếm trang web của bạn, bạn phải sử dụng xác thực hợp lệ và chỉ cấp cho người dùng xác thực quyền truy cập. Mọi thứ khác đều không an toàn.

— Cấp tiến miễn phí

Ý kiến hay. Nhưng, nếu tôi thực hiện nó, tôi cá là tôi sẽ vô tình tự đánh mình vào honeypot và tiếp tục bị chặn khỏi trang web của chính mình.

— JW01

@ JW01 Tất cả những gì bạn phải làm để tránh điều đó là không truy cập trang xử lý việc này. Vì không có nội dung trên đó nên đơn giản để làm.

— John Conde

Bạn có thể cõng công việc mà những người khác đã làm trong việc xác định IP xấu bằng cách sử dụng mô-đun Apache có giao diện với danh sách đen IP của Project Honeypot . Nếu bạn đang làm điều này trên quy mô lớn, có lẽ sẽ rất lịch sự khi đề nghị chạy một honeypot.

— Peter Taylor
nguồn

Tôi đã rất ngạc nhiên khi tôi thêm danh sách đen IP của Project Honeypot trên trang web của mình. Nhiều năm thống khổ đã kết thúc đơn giản bằng cách ngăn chặn những điều tồi tệ. Tôi nghĩ rằng bạn có thể phát hiện các bot công cụ tìm kiếm với nó quá. Vì vậy, cộng 1 cho điều đó.

— JW01

Nhưng mấu chốt của vấn đề là: Nếu bạn có các trang công khai, hãy mong đợi chúng được lập chỉ mục. Vì vậy, một số loại xác thực là cần thiết. Xem câu trả lời của Michael Hampton .

— JW01

Như Geway Hannemyr đã đề cập trong một bình luận , cách tốt nhất để làm điều này là yêu cầu đăng nhập của tất cả người dùng và không cung cấp nội dung bị hạn chế cho bất kỳ ai không đăng nhập.

Nếu bạn không thể yêu cầu đăng nhập vì một số lý do, vẫn có một số dự phòng bạn có thể sử dụng (từ chối trách nhiệm: cả hai đều là một phần hoặc hoàn toàn là lỗi của tôi):

Bộ quy tắc lõi bảo mật của OWASP ModSecurity chứa một số quy tắc được thiết kế để phát hiện tự động hóa, ngay cả khi bot đã thực hiện các bước để ngụy trang thành trình duyệt (ví dụ: giả mạo chuỗi User-Agent của nó). Nếu bạn có toàn quyền kiểm soát máy chủ của mình, chẳng hạn như VPS, máy chủ chuyên dụng hoặc thứ gì đó lớn hơn thế, thì bạn có thể sử dụng các quy tắc này với ModSecurity .

Bộ quy tắc này cũng chứa các quy tắc khác nhằm ngăn chặn nhiều hoạt động không phù hợp; nếu bạn không nhìn vào nó, bạn chắc chắn nên.
Nếu bạn không kiểm soát hoàn toàn máy chủ của mình (ví dụ: bạn đang lưu trữ web được chia sẻ) và máy chủ của bạn không cho phép bạn sử dụng các quy tắc ModSecurity của riêng bạn, bạn có thể thử một cái gì đó ở cấp ứng dụng, chẳng hạn như Bad của tôi Hành vi . Tôi đã bắt đầu dự án này vào năm 2005 để chống lại những kẻ phá hoại nội dung và thư rác trên blog như những người quan tâm đến bạn. Nó có thể được thêm vào bất kỳ trang web dựa trên PHP.

Tôi cũng cần lưu ý rằng nhiều quy tắc của Hành vi xấu đã được tích hợp vào Bộ quy tắc cốt lõi ModSecurity, miễn là bạn đã kích hoạt các quy tắc đó, việc chạy cả hai quy tắc sẽ khá dư thừa. Các quy tắc này được chú thích trong Bộ quy tắc cốt lõi có nguồn gốc từ Hành vi xấu.

— Michael Hampton
nguồn