Thiết lập ban đầu hoặc chung nhất cho robot.txt là gì để cho phép các công cụ tìm kiếm đi qua trang web, nhưng có thể hạn chế một vài thư mục?
Có một thiết lập chung nên luôn luôn được sử dụng?
Thiết lập ban đầu hoặc chung nhất cho robot.txt là gì để cho phép các công cụ tìm kiếm đi qua trang web, nhưng có thể hạn chế một vài thư mục?
Có một thiết lập chung nên luôn luôn được sử dụng?
Câu trả lời:
Các công cụ quản trị trang web của Google có Phần gọi là "Truy cập trình thu thập thông tin"
Phần này cho phép bạn rất dễ dàng để tạo tệp robots.txt của bạn
Ví dụ: để cho phép mọi thứ ngoại trừ blog một thư mục có tên test, robot.txt của bạn sẽ trông giống như
User-agent: *
Disallow: /Test
Allow: /
Allow
chỉ thị nào trong tiêu chuẩn robot.txt gốc. Một số trình thu thập thông tin bây giờ hiểu điều đó, nhưng hầu hết không. Vì mặc định được thu thập thông tin cho phép, dòng đó có thể được bỏ qua.
Cấu hình tốt nhất, nếu bạn không có bất kỳ yêu cầu đặc biệt nào, thì không có gì cả. (Mặc dù ít nhất bạn có thể muốn thêm một tệp trống để tránh 404s điền vào nhật ký lỗi của bạn.)
Để chặn thư mục trên trang web, hãy sử dụng mệnh đề 'Không cho phép':
User-agent: *
Disallow: /example/
Ngoài ra còn có một điều khoản 'Cho phép' ghi đè các mệnh đề 'Không cho phép' trước đó. Vì vậy, nếu bạn không cho phép thư mục 'ví dụ', bạn có thể muốn cho phép một thư mục như 'example / foobar'.
Hãy nhớ rằng robot.txt không ngăn chặn bất kỳ ai truy cập vào các trang đó nếu họ muốn, vì vậy nếu một số trang cần giữ bí mật, bạn nên ẩn chúng đằng sau một số loại xác thực (ví dụ: tên người dùng / mật khẩu).
Lệnh khác có khả năng có trong nhiều tệp robot.txt là 'Sơ đồ trang web', chỉ định vị trí của sơ đồ trang XML của bạn nếu bạn có. Đặt nó trên một dòng trên chính nó:
Sitemap: /sitemap.xml
Các trang web chính thức robots.txt có nhiều hơn nữa thông tin về các tùy chọn khác nhau. Nhưng nói chung, phần lớn các trang web sẽ cần rất ít cấu hình.
Đây là mọi thứ bạn cần biết về tệp robot.txt
Bạn có thể sử dụng công cụ quản trị trang web google để làm điều này. Công cụ quản trị trang web của Google rất hữu ích để tạo robot.txt