Tôi đang sử dụng tệp robot.txt sau đây cho một trang web: Mục tiêu là cho phép googlebot và bingbot truy cập trang web ngoại trừ trang /bedven/bedrijf/*
và chặn tất cả các bot khác thu thập dữ liệu trang web.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
Liệu quy tắc cuối cùng User-agent: * Disallow: /
không cho phép tất cả các bot thu thập dữ liệu mọi trang trên trang web?
robots.txt
anyways
robots.txt
, hoặc ít nhất là theo Disallow: /
quy tắc. Nếu trang web cá nhân của bạn đang bị tấn công bởi vì một lập trình viên bot không bao giờ nghĩ rằng máy chủ đó có thể là Raspberry Pi ở đầu cuối của kết nối 256 kbit, loại trừ chăn như thế này rất hữu ích.