Làm cách nào để định cấu hình robot.txt để cho phép thu thập dữ liệu của trang web ngoại trừ một vài thư mục?


7

Thiết lập ban đầu hoặc chung nhất cho robot.txt là gì để cho phép các công cụ tìm kiếm đi qua trang web, nhưng có thể hạn chế một vài thư mục?

Có một thiết lập chung nên luôn luôn được sử dụng?


1
Đó là "robot.txt" (số nhiều)
Adam Tript

Cảm ơn. Tôi đã sửa tiêu đề và câu hỏi để phản ánh điều này.
Mike

Câu trả lời:


3

Các công cụ quản trị trang web của Google có Phần gọi là "Truy cập trình thu thập thông tin"

Phần này cho phép bạn rất dễ dàng để tạo tệp robots.txt của bạn

Ví dụ: để cho phép mọi thứ ngoại trừ blog một thư mục có tên test, robot.txt của bạn sẽ trông giống như

User-agent: *
Disallow: /Test
Allow: /

Hãy chắc chắn rằng bạn cũng theo liên kết trong câu trả lời của Jason để biết thêm thông tin. webmasters.stackexchange.com/questions/89/
Mạnh

1
Không có Allowchỉ thị nào trong tiêu chuẩn robot.txt gốc. Một số trình thu thập thông tin bây giờ hiểu điều đó, nhưng hầu hết không. Vì mặc định được thu thập thông tin cho phép, dòng đó có thể được bỏ qua.
Stephen Ostermiller

1

Cấu hình tốt nhất, nếu bạn không có bất kỳ yêu cầu đặc biệt nào, thì không có gì cả. (Mặc dù ít nhất bạn có thể muốn thêm một tệp trống để tránh 404s điền vào nhật ký lỗi của bạn.)

Để chặn thư mục trên trang web, hãy sử dụng mệnh đề 'Không cho phép':

User-agent: *
Disallow: /example/

Ngoài ra còn có một điều khoản 'Cho phép' ghi đè các mệnh đề 'Không cho phép' trước đó. Vì vậy, nếu bạn không cho phép thư mục 'ví dụ', bạn có thể muốn cho phép một thư mục như 'example / foobar'.

Hãy nhớ rằng robot.txt không ngăn chặn bất kỳ ai truy cập vào các trang đó nếu họ muốn, vì vậy nếu một số trang cần giữ bí mật, bạn nên ẩn chúng đằng sau một số loại xác thực (ví dụ: tên người dùng / mật khẩu).

Lệnh khác có khả năng có trong nhiều tệp robot.txt là 'Sơ đồ trang web', chỉ định vị trí của sơ đồ trang XML của bạn nếu bạn có. Đặt nó trên một dòng trên chính nó:

Sitemap: /sitemap.xml

Các trang web chính thức robots.txt có nhiều hơn nữa thông tin về các tùy chọn khác nhau. Nhưng nói chung, phần lớn các trang web sẽ cần rất ít cấu hình.



-3

Bạn có thể sử dụng công cụ quản trị trang web google để làm điều này. Công cụ quản trị trang web của Google rất hữu ích để tạo robot.txt


1
Câu trả lời được chấp nhận đã nói rằng hãy sử dụng Google Webmaster Tools. Nó có nhiều chi tiết hơn cũng như phần nào sẽ sử dụng và tệp robot.txt ví dụ. Khi đăng một câu trả lời bổ sung, bạn cần thêm một cái gì đó ở trên và ngoài các câu trả lời hiện có. Ngay cả khi đây là câu trả lời duy nhất, nó vẫn không có chất lượng rất cao. Một câu trả lời tốt hơn sẽ có một vài đoạn và một số liên kết để tham khảo.
Stephen Ostermiller
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.