Chỉ cho phép các bot Google và Bing thu thập dữ liệu trang web

Tôi đang sử dụng tệp robot.txt sau đây cho một trang web: Mục tiêu là cho phép googlebot và bingbot truy cập trang web ngoại trừ trang /bedven/bedrijf/*và chặn tất cả các bot khác thu thập dữ liệu trang web.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

Liệu quy tắc cuối cùng User-agent: * Disallow: /không cho phép tất cả các bot thu thập dữ liệu mọi trang trên trang web?

web-crawlers robots.txt

— Konsole
nguồn

Toàn bộ nhiệm vụ này liên quan đến tôi. Có các công cụ tìm kiếm khác và bất kỳ ai sử dụng chúng sẽ không thấy trang web của bạn. theeword.co.uk/info/search_engine_market nói rằng 4,99% internet không có trên các công cụ tìm kiếm của bạn. Đó là rất nhiều người. Một phương pháp tốt hơn sẽ là theo dõi lưu lượng truy cập của bạn và xem liệu có bot nào thực sự gây ra sự cố hay không, sau đó chặn cụ thể.

— GKFX

Một bot hỏng có thể chỉ hoàn toàn bỏ qua của bạn robots.txtanyways

— Nick T

Các bot thực sự xấu không quan tâm đến robot.txt

— Osvaldo

@NickT, trong thế giới thực, không thiếu các bot hoạt động kém tuân theo robots.txt, hoặc ít nhất là theo Disallow: /quy tắc. Nếu trang web cá nhân của bạn đang bị tấn công bởi vì một lập trình viên bot không bao giờ nghĩ rằng máy chủ đó có thể là Raspberry Pi ở đầu cuối của kết nối 256 kbit, loại trừ chăn như thế này rất hữu ích.

— Đánh dấu

@Console tại sao?

— o0 '.

Câu trả lời:

Bản ghi cuối cùng (bắt đầu bằng User-agent: *) sẽ được theo sau bởi tất cả các bot lịch sự không tự nhận mình là "googlebot", "google", "bingbot" hoặc "bing".
Và vâng, điều đó có nghĩa là họ không được phép bò bất cứ thứ gì.

Bạn có thể muốn bỏ qua *trong /bedven/bedrijf/*.
Trong đặc tả robot.txt gốc, *không có ý nghĩa đặc biệt, nó chỉ là một ký tự như bất kỳ ký tự nào khác. Vì vậy, nó sẽ chỉ không cho phép thu thập dữ liệu các trang có ký tự *trong URL của họ.
Mặc dù Google không tuân theo thông số robot.txt về vấn đề đó, vì họ sử dụng *làm ký tự đại diện cho "bất kỳ chuỗi ký tự nào", trong trường hợp này không cần thiết cho họ: /bedven/bedrijf/*và /bedven/bedrijf/sẽ có nghĩa chính xác như nhau: chặn tất cả các URL có đường dẫn bắt đầu với /bedven/bedrijf/.

Và cuối cùng, bạn có thể giảm robot.txt của mình xuống còn hai bản ghi, vì một bản ghi có thể có nhiều User-agentdòng :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

— unor
nguồn

Lưu ý rằng Google bỏ qua chỉ thị thu thập thông tin chậm trễ trong tệp robots.txt. Thay vào đó, bạn phải đặt nó trong Công cụ quản trị trang web của Google.

— Không hài lòngGoat

-2

Bots, đặc biệt là những cái xấu, có thể bỏ qua tệp robot.txt. Vì vậy, không có vấn đề gì được viết ở đó, một số bot có thể thu thập dữ liệu trang web của bạn.

— Atis Luguzs
nguồn