Nếu tôi không muốn thiết lập bất kỳ hành vi đặc biệt nào, liệu tôi có phiền khi có tệp robot.txt không?


29

Nếu tôi không muốn thiết lập bất kỳ hành vi đặc biệt nào, liệu tôi có phiền khi có tệp robot.txt không?

Hoặc thiếu một trong những có thể có hại?

Câu trả lời:


30

Thiếu tệp robots.txt sẽ không gây hại. Từ trang web robotstxt.org :

Để cho phép tất cả các robot truy cập hoàn toàn

Tác nhân người dùng: *
Không cho phép:

(hoặc chỉ tạo một tệp "/robots.txt" trống hoặc không sử dụng một tệp nào cả)

Tuy nhiên, ngay cả khi bạn không chỉ định bất cứ điều gì trong tệp robot.txt của mình, đó là một cách tốt để thông báo cho các công cụ tìm kiếm về vị trí của Sơ đồ trang web XML của bạn . Bạn có thể làm điều này bằng cách thêm một dòng ở đầu tệp robot.txt của bạn trông giống như:

Sơ đồ trang web: http://www.example.com/sitemap-host1.xml

Bạn cũng nên lưu ý rằng việc không có nó sẽ tạo ra rất nhiều mục 404 trong nhật ký web của bạn.


+1 - tóm tắt tốt, mặc dù tôi thực sự nhấn mạnh những gì Kinopiko đã nhấn mạnh chính xác : chỉ cần tạo một cái cơ bản nhất hoặc thậm chí là trống để tránh các 404 đó và (tùy thuộc vào việc xử lý trang 404 của trang web của bạn) có khả năng khá nhiều lưu lượng / băng thông , vì các công cụ tìm kiếm sẽ áp dụng kiểm soát bộ đệm HTTP thích hợp để bỏ qua việc tải xuống lại tệp nếu không thay đổi, có trống hay không.
Steffen Opel

Được đánh dấu là wiki, vui lòng chỉnh sửa khi bạn thấy phù hợp.
JasonBirch

21

Nếu bạn không có "robot.txt", nhật ký lỗi của bạn sẽ nhận được rất nhiều 404 trên tệp, đây có thể là một loại phiền toái, tương tự như nếu bạn không có favicon.


1
một điểm tuyệt vời ..
Jeff Atwood

1
+1 - Tôi muốn thêm rằng bạn không chỉ tự cứu mình khỏi các tệp nhật ký lớn hơn và ồn ào, nhưng có thể (tùy thuộc vào việc xử lý trang 404 của trang web của bạn) tránh khả năng khá nhiều lưu lượng / băng thông do hầu hết các trang 404 lớn hơn một robots.txttệp đơn giản , ngoài ra sẽ được tải xuống ít thường xuyên hơn do các công cụ tìm kiếm áp dụng kiểm soát bộ đệm HTTP thích hợp .
Steffen Opel

6

Tôi nghĩ rằng nó sẽ được OK, nếu không những dải khổng lồ web sẽ là un-lập chỉ mục bởi nhện web.

Không robots.txtgiống như một "cho phép lập chỉ mục bởi mọi người" robots.txtgần như theo định nghĩa.


2

Việc thiếu tệp robot.txt khiến cho trình thu thập thông tin quyết định những gì nó có thể và không thể làm. Vì chỉ mất vài giây để tránh bất kỳ sự mơ hồ nào, tại sao không tạo ra một thứ cho phép tất cả các tác nhân truy cập mọi thứ?


0

Chà, vì robots.txtchứa địa chỉ của sơ đồ trang web của bạn , không có địa chỉ nào có khả năng gây hại.


Sơ đồ trang web chỉ hữu ích cho một số loại trang web nhất định, IMO
Jeff Atwood

Tôi cũng đã thấy các trình thu thập thông tin (cụ thể là google) tìm kiếm /sitemap.xml hoặc /sitemap.gz khi không có tệp robots.txt
Tim Post

Bạn không cần phải có sơ đồ trang web trong tệp robots.txt của mình, bạn vẫn có thể gửi nó cho Google / Yahoo / Bing. Nó chắc chắn không "có hại".
DisgruntledGoat

0

Tùy thuộc vào nội dung của bạn, sẽ không có vấn đề gì khi không có tệp rô bốt miễn là bạn có thể có mọi trang trên trang web của bạn được lập chỉ mục bởi các công cụ tìm kiếm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.