Làm cách nào để định cấu hình robots.txt để cho phép mọi thứ?


116

My robots.txttrong Google Webmaster Tools hiển thị các giá trị sau:

User-agent: *
Allow: /

Nó có nghĩa là gì? Tôi không có đủ kiến ​​thức về nó, vì vậy mong sự giúp đỡ của bạn. Tôi muốn cho phép tất cả rô bốt thu thập dữ liệu trang web của mình, đây có phải là cấu hình phù hợp không?


Cho phép không được hiểu bởi tất cả các trình thu thập dữ liệu web, hãy sử dụng từ chối: (nghĩa là không có url sau:) để thay thế. Nó an toàn hơn (xem: youtu.be/G29Zt-UH_Ko )
Jérôme Verstrynge

Câu trả lời:


153

Tệp đó sẽ cho phép tất cả các trình thu thập thông tin truy cập

User-agent: *
Allow: /

Về cơ bản, điều này cho phép tất cả các tác nhân người dùng (dấu *) đến tất cả các phần của trang web (dấu /).


11
Đúng, trừ khi bạn cần phủ định phần cho phép. Hiện không phải là "cho phép" để làm cho rằng: "User-agent: * Disallow:" như họ hiển thị ở đây: robotstxt.org/robotstxt.html
vsdev

Có một phần cho phép. Kiểm tra tài liệu chính thức của Google Developers.google.com/search/reference/robots_txt#allow
Hasan Sefa Ozalp,

60

Nếu bạn muốn cho phép mọi bot thu thập thông tin mọi thứ, đây là cách tốt nhất để chỉ định nó trong tệp robots.txt của bạn:

User-agent: *
Disallow:

Lưu ý rằng Disallowtrường có giá trị trống, có nghĩa là theo đặc điểm kỹ thuật :

Bất kỳ giá trị trống nào, cho biết rằng tất cả các URL có thể được truy xuất.


Cách của bạn (với Allow: /thay vì Disallow:) cũng hoạt động, nhưng Allowkhông phải là một phần của đặc tả robots.txt gốc , vì vậy nó không được hỗ trợ bởi tất cả các bot (mặc dù vậy, nhiều bot phổ biến hỗ trợ nó, như Googlebot ). Điều đó nói rằng, các trường không được nhận dạng phải bị bỏ qua và đối với các bot không nhận ra Allow, kết quả sẽ giống nhau trong trường hợp này: nếu không có gì bị cấm thu thập thông tin (với Disallow), mọi thứ đều được phép thu thập thông tin.
Tuy nhiên, về mặt hình thức (theo thông số ban đầu) đó là một bản ghi không hợp lệ, bởi vì ít nhất một Disallowtrường được yêu cầu:

Cần có ít nhất một trường Disallow trong bản ghi.


17

Tôi hiểu rằng đây là một câu hỏi khá cũ và có một số câu trả lời khá hay. Nhưng, đây là hai xu của tôi vì lợi ích của sự hoàn chỉnh.

Theo tài liệu chính thức , có bốn cách, bạn có thể cho phép hoàn toàn quyền truy cập để rô bốt truy cập trang web của bạn.

Dọn dẹp:

Chỉ định trình đối sánh toàn cầu với phân đoạn không được phép như đã đề cập bởi @unor. Vì vậy, của bạn /robots.txttrông như thế này.

User-agent: *
Disallow:

Vụ hack:

Tạo một /robots.txttệp không có nội dung trong đó. Mà sẽ mặc định cho phép tất cả cho tất cả các loại Bots.

Tôi không quan tâm:

Không tạo một /robots.txthoàn toàn. Điều này sẽ mang lại kết quả chính xác giống như hai kết quả trên.

Xấu xí:

Từ tài liệu rô bốt cho thẻ meta , Bạn có thể sử dụng thẻ meta sau trên tất cả các trang trên trang web của mình để cho Botsbiết rằng các trang này không được lập chỉ mục.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Để điều này được áp dụng cho toàn bộ trang web của bạn, Bạn sẽ phải thêm thẻ meta này cho tất cả các trang của mình. Và thẻ này phải được đặt dưới HEADthẻ trang của bạn. Thông tin thêm về thẻ meta này tại đây .


Tuy nhiên, không có robots.txt và Wordpress là một sự kết hợp tồi vì WordPress tạo ra một tệp robots.txt ảo. Trừ khi bạn hài lòng với cái mà WordPress tạo ra.
Jesper

8

Nó có nghĩa là bạn cho phép mọi ( *) tác nhân người dùng / trình thu thập thông tin truy cập vào thư mục gốc ( /) của trang web của bạn. Bạn không sao.


5
không có trường "Cho phép", theo robotstxt.org/robotstxt.html, vì vậy tôi sẽ cẩn thận khi sử dụng trường đó. Wikipedia đề cập đến "Một số trình thu thập chủ yếu hỗ trợ cho phép chỉ có thể chống lại một chỉ thị Disallow sau.": En.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive
Mackaaij
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.