Trong Robots.txt, làm cách nào để tôi không cho phép tất cả các trang ngoại trừ trang chỉ mục?


7

Tôi muốn google lập chỉ mục trang chỉ mục của mình, nhưng không lập chỉ mục cho bất kỳ trang nào khác.

User-agent: *
Disallow: /

Cho đến nay tôi có điều này. Tuy nhiên ... khi tôi làm điều này, Google không lập chỉ mục trang chỉ mục của tôi. Khi tôi tìm kiếm tên của mình trong Google, tất cả những gì nó hiển thị là "www.mydomain.com" là kết quả đầu tiên không có mô tả.

Thay vào đó, tôi muốn Google lập chỉ mục trang chỉ mục chính của mình, cùng với thẻ mô tả meta.

Câu trả lời:


8

Đối với Google, đặc biệt, các quy tắc sau đây sẽ thực hiện thủ thuật:

User-Agent: *
Allow: /$
Disallow: /

Để biết chi tiết, hãy xem tài liệu của Google về cú pháp robot.txt được hỗ trợ của họ . Tuy nhiên, lưu ý rằng đường giữa là không chuẩn vì hai lý do: thứ nhất, đó là một lệnh Allow( tiêu chuẩn robot.txt cơ bản chỉ hỗ trợ Disallow) và thứ hai, nó sử dụng neo cuối URL không chuẩn $. Điều đó nói rằng, một số công cụ tìm kiếm lớn khác, bao gồm Bing , không hỗ trợ ít nhiều cùng một cú pháp.


3

Google và các công cụ tìm kiếm khác hỗ trợ Allow:tuyên bố ngay bây giờ ngoài Disallow:... mặc dù chúng có thể hoạt động khác nhau trên các công cụ tìm kiếm khác nhau và có thể không được hỗ trợ hoặc thực thi bởi các loại người dọn dẹp trang web khác.

Tài liệu ở đây


0

Tại sao bạn muốn không cho phép Google các trang của bạn?

Dù sao bạn làm điều này bạn có thể làm:

Disallow: /
Allow: /index.html

1
Điều đó sẽ không khớp với gốc thông thường là '/'
Bryce

0

Tôi sử dụng như thế này:

User-agent: Yandex
Allow: /index.html
Disallow: /

User-agent: Googlebot
Allow: /index.html
Disallow: /
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.