Chúng tôi có thể sử dụng regex trong tệp robot.txt để chặn URL không?


23

Tôi có một vài URL được tạo động.

Tôi có thể sử dụng regex để chặn các URL này trong tệp robot.txt không?


Cũng đáng để thiết lập thẻ meta rô bốt trên các trang bạn không muốn thu thập / lập chỉ mục.
Andrew Lott

@AndrewLott Trong trường hợp của tôi, tôi có hơn 500 trang, vì vậy tôi nghĩ sử dụng regex trong robot.txt ..
Sudheera Njs

Sau đó, một quy tắc trong mã trang web của bạn có thể hữu ích hơn.
Andrew Lott

Câu trả lời:


27

Biểu thức chính quy không hợp lệ trong tệp robots.txt, nhưng Google, Bing và một số bot khác nhận ra một số mẫu khớp.

Giả sử nếu bạn muốn chặn tất cả các URL có examplebất kỳ vị trí nào trong URL, bạn có thể sử dụng mục nhập thẻ hoang dã *

User-agent: *
Disallow: /*example

Bạn cũng có thể sử dụng ký hiệu đô la $ để chỉ định rằng các URL phải kết thúc theo cách đó. Vì vậy, nếu bạn muốn chặn tất cả các URL kết thúc bằng example, nhưng không phải các URL có exampleURL khác mà bạn có thể sử dụng:

User-agent: *
Disallow: /*example$

Thông tin sâu hơn cho Google có thể được tìm thấy ở đây: Thông số kỹ thuật của Robots.txt , Bing tại đây: Cách tạo tệp Robots.txt và có một hướng dẫn tương tác trên Moz tại đây


Hoàn hảo, * đang hoạt động tốt, Đã thử nghiệm trong công cụ tổng thể web .. Cảm ơn Max ... :)
Sudheera Njs

Tôi nên thận trọng khi sử dụng các lệnh quá ưa thích trong tệp robot.txt của bạn; những cái này thực sự, thực sự rất khó để gỡ lỗi sau này. Cố gắng giữ mọi thứ đơn giản nhất có thể. Ngoài ra, hãy nhớ rằng robot.txt phân biệt chữ hoa chữ thường, vì vậy bạn có thể cần thêm các phiên bản thay thế của các chỉ thị tùy thuộc vào trang web của bạn.
John Mueller

sẽ rất tuyệt nếu regex được hỗ trợ
SuperUberDuper
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.