Google có bộ đệm robot.txt không?


17

Tôi đã thêm một tệp robots.txt vào một trong các trang web của tôi một tuần trước, điều này sẽ ngăn Googlebot cố gắng tìm nạp một số URL nhất định. Tuy nhiên, cuối tuần này tôi có thể thấy Googlebot đang tải các URL chính xác đó.

Google có bộ đệm robot.txt và, nếu vậy, có nên không?

Câu trả lời:


13

Tôi thực sự khuyên bạn nên đăng ký trang web của mình với Google Search Console (trước đây là Google Webmaster Tools) . Có một phần truy cập trình thu thập thông tin trong cấu hình trang web sẽ cho bạn biết khi nào tệp robots.txt của bạn được tải xuống lần cuối. Công cụ này cũng cung cấp rất nhiều chi tiết về cách các trình thu thập thông tin đang nhìn thấy trang web của bạn, những gì bị chặn hoặc không hoạt động và nơi bạn xuất hiện trong các truy vấn trên Google.

Từ những gì tôi có thể nói, Google thường xuyên tải xuống tệp robots.txt . Trang web Google Search Console cũng sẽ cho phép bạn xóa URL cụ thể khỏi chỉ mục, do đó bạn có thể xóa những URL mà bạn hiện đang chặn.


2
Tôi đã kiểm tra các công cụ quản trị trang web: tệp robot.txt là hợp lệ và nó đã được tải xuống gần đây nhất 17 giờ trước khi truy cập gần đây nhất vào các trang đó bởi googlebot. Tôi nghi ngờ đây là một câu hỏi về sự lan truyền thông qua mạng của google - cuối cùng tất cả các máy chủ googlebot sẽ bắt kịp các hướng dẫn của robot.txt.
Quog

Bot Google không sử dụng robot.txt thường xuyên như các bản cập nhật được báo cáo trong Search Console. Đã bốn tuần kể từ khi tôi thực hiện cập nhật và bot Google vẫn sử dụng một tệp robots.txt xấu - và nó phá hủy lưu lượng truy cập và thứ hạng của chúng tôi.
Công ty Geek

3

Kiên trì. Tôi đã thay đổi từ robot.txt theo meta noindex, nofollow. Để làm cho meta hoạt động, các địa chỉ bị chặn trong robot.txt trước tiên phải được bỏ chặn.

Tôi đã làm điều này một cách tàn nhẫn bằng cách xóa hoàn toàn robot.txt (và xóa nó trong quản trị trang web của google).

Quá trình loại bỏ robot.txt như đã thấy trong công cụ quản trị trang web (số trang bị chặn) mất 10 tuần để hoàn thành, trong đó phần lớn chỉ bị google xóa trong 2 tuần qua.


Tôi có xu hướng đồng ý với bạn. Chúng tôi đã mắc lỗi và cập nhật sai tệp robot.txt. Google đã lưu nó vào bộ nhớ cache và nó đang sử dụng bốn tuần sau khi chúng tôi sửa lỗi và thay thế nó bằng robot.txt mới. Tôi thậm chí đã tự gửi yêu cầu làm mới trong Công cụ quản trị trang web của Google và ... không có gì. Điều này thực sự tồi tệ vì nó dẫn đến mất lưu lượng và thứ hạng. :(
Công ty Geek

2

Có, Google rõ ràng sẽ lưu trữ tệp robots.txt ở một mức độ nào đó - nó sẽ không tải xuống mỗi khi nó muốn xem một trang. Nó lưu trữ nó trong bao lâu, tôi không biết. Tuy nhiên, nếu bạn có bộ tiêu đề Hết hạn dài, Googlebot có thể để nó lâu hơn để kiểm tra tệp.

Một vấn đề khác có thể là một tập tin cấu hình sai. Trong Công cụ quản trị trang web mà danivovich gợi ý, có trình kiểm tra robot.txt . Nó sẽ cho bạn biết loại trang nào bị chặn và loại nào tốt.


Xem bình luận về câu trả lời này webmasters.stackexchange.com/questions/2272/ trên
Quog

2
@Quog: Xem video gần đây này: youtube.com/watch?v=I2giR-WKUfY Matt Cutts gợi ý rằng robot.txt được tải xuống mỗi ngày một lần hoặc khoảng 100 yêu cầu.
DisgruntledGoat

2

Tài liệu của Google tuyên bố rằng họ thường sẽ lưu trữ tệp robots.txt trong một ngày, nhưng có thể sử dụng nó lâu hơn nếu họ gặp lỗi khi cố gắng làm mới nó.

Yêu cầu robot.txt thường được lưu trong bộ nhớ cache tối đa một ngày, nhưng có thể được lưu trong bộ nhớ cache lâu hơn trong các trường hợp không thể làm mới phiên bản được lưu trong bộ nhớ cache (ví dụ: do hết thời gian hoặc lỗi 5xx). Phản hồi được lưu trữ có thể được chia sẻ bởi các trình thu thập thông tin khác nhau. Google có thể tăng hoặc giảm tuổi thọ bộ đệm dựa trên các tiêu đề HTTP Kiểm soát bộ nhớ cache tối đa.


1

Đúng. Họ nói rằng họ thường cập nhật nó mỗi ngày một lần, nhưng một số người cho rằng họ cũng có thể kiểm tra nó sau một số lần truy cập trang nhất định (100?) Để các trang web bận rộn hơn được kiểm tra thường xuyên hơn.

Xem /webmasters//a/29946 và video mà @DisgruntedGoat đã chia sẻ ở trên http://youtube.com/watch?v=I2giR-WKUfY .


1

Từ những gì tôi có thể thấy trên bộ đệm mà người dùng có thể truy cập họ làm, những gì bạn cần làm là nhập URL của tệp robot.txt của bạn vào Tìm kiếm của Google và sau đó nhấp vào mũi tên thả xuống màu xanh lá cây nhỏ và nhấp vào 'được lưu trong bộ nhớ cache' (xem hình ảnh bên dưới) điều này sẽ cung cấp cho bạn phiên bản mới nhất của trang đó từ các máy chủ của Google.

nhập mô tả hình ảnh ở đây


-2

Bạn có thể yêu cầu xóa nó bằng công cụ xóa URL của Google .


Điều này không trả lời câu hỏi.
MrWhite

Tại sao không phải là câu trả lời?
KOZASHI SOUZA

Bởi vì câu hỏi cụ thể là về tệp robots.txt, bộ đệm và thu thập dữ liệu URL. Một trong những kết quả của điều này có thể là các URL không được lập chỉ mục, nhưng đó không phải là câu hỏi. (Công cụ xóa URL của Google cũng chỉ là cách khắc phục "tiến độ", có một số bước khác bạn cần thực hiện để làm cho nó vĩnh viễn.)
MrWhite
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.