Làm cách nào tôi có thể khuyến khích Google đọc tệp robot.txt mới?


22

Tôi vừa cập nhật tệp robot.txt của mình trên một trang web mới; Công cụ quản trị trang web của Google báo cáo rằng nó đã đọc tệp robots.txt của tôi 10 phút trước khi cập nhật lần cuối.

Có cách nào tôi có thể khuyến khích Google đọc lại tệp robots.txt của mình càng sớm càng tốt không?

CẬP NHẬT: Theo cấu hình trang web | Truy cập trình thu thập thông tin | Kiểm tra robot.txt:

Truy cập trang chủ hiển thị:

Googlebot bị chặn từ http://my.example.com/

FYI: robot.txt mà Google đọc lần cuối trông như thế này:

User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /

Tôi đã tự bắn vào chân mình hay cuối cùng nó sẽ đọc: http: ///robots.txt (như lần cuối nó đọc nó)?

Bất cứ ý tưởng về những gì tôi cần phải làm?


FYI: Trang web này mới và thông báo này xuất hiện trong Cài đặt | Tốc độ thu thập dữ liệu: "Trang web của bạn đã được chỉ định cài đặt tốc độ thu thập dữ liệu đặc biệt. Bạn sẽ không thể thay đổi tốc độ thu thập dữ liệu."
qxotk

FYI: Tôi đã tìm thấy một bài đăng trong các nhóm google cho biết google sẽ đọc robot.txt "ít nhất một lần một ngày" - có ai có thể xác nhận điều đó không? [nhóm đăng bài của google có tại đây: Groups.google.com/group/google_webmaster_help-indexing/iêu ]
qxotk

FYI: Đã 1 ngày trôi qua và google vẫn chưa đọc robot.txt được cập nhật của tôi.
qxotk

Vấn đề tương tự ở đây, đây không phải là "tính năng" ...
mate64

Câu trả lời:


25

Trong trường hợp bất kỳ ai khác gặp phải vấn đề này, có một cách để buộc google-bot tải xuống lại tệp robot.txt.

Truy cập Sức khỏe -> Tìm nạp dưới dạng Google [1] và tải xuống /robots.txt

Điều đó sẽ tải lại tệp và google cũng sẽ phân tích lại tệp.

[1] trong Giao diện người dùng Google trước đó là 'Chẩn đoán -> Tìm nạp dưới dạng GoogleBot'.


11
Thật không may, điều này sẽ không hoạt động nếu robot.txt của bạn được đặt thành Disallow: /. Thay vào đó, báo cáo tìm nạp "Bị từ chối bởi robot.txt": /.
studgeek

3
Lần sau thêm dòng này. Cho phép: /robots.txt
jrosell

Tôi không thể tìm thấy 'Chẩn đoán', có thể giao diện người dùng đã thay đổi?
David Riccitelli

2
Ok, giờ là Health> Fetch as Google.
David Riccitelli

Không hoạt động với tôi khi tôi cố gắng tìm nạp robot.txt. LRI: "Không thể thu thập dữ liệu trang này vào lúc này vì nó bị chặn bởi tệp robot.txt gần đây nhất mà Googlebot đã tải xuống. Lưu ý rằng nếu gần đây bạn đã cập nhật tệp robot.txt, có thể mất đến hai ngày trước khi được làm mới. Bạn có thể tìm thêm thông tin trong bài viết trong Trung tâm trợ giúp về robot.txt. "
Indrek

4

Tôi biết điều này rất cũ, nhưng ... Nếu bạn đã tải sai robot.txt (không cho phép tất cả các trang), bạn có thể thử các cách sau:

  • trước tiên hãy sửa robot.txt của bạn để cho phép các trang chính xác, sau đó
  • tải lên một sơ đồ trang web với các trang của bạn

khi google cố gắng đọc sơ đồ trang web xml, nó sẽ kiểm tra lại robot.txt, buộc google phải đọc lại tệp robots.txt của bạn.


Điều này đã không làm việc cho tôi. Nó nói rằng sơ đồ trang web đã bị chặn bởi tệp robots.txt
James

1

ĐƯỢC. Đây là những gì tôi đã làm và trong vài giờ, Google đọc lại các tệp robot.txt của tôi.

Chúng tôi có 2 trang web cho mỗi 1 trang web chúng tôi chạy. Hãy gọi chúng là trang web chính tắc (www.mysite.com) và trang web tên miền trần (mysite.com).

Chúng tôi có thiết lập trang web của mình để mysite.com luôn trả về chuyển hướng 301 đến www.mysite.com.

Khi tôi thiết lập cả hai trang web trong các công cụ Google Webmaster, đã nói với nó rằng www.mysite.com là trang web chính tắc, ngay sau khi đọc tệp robot.txt trên trang web chính tắc.

Tôi thực sự không biết tại sao, nhưng đó là những gì đã xảy ra.


3
Tôi biết điều này đã cũ, nhưng chấp nhận câu trả lời của bạn là hợp pháp 100%
Mark Henderson

0

Rút ngắn khoảng thời gian quét google trong một số ngày.

Ngoài ra, tôi đã thấy ở đó để xác minh robot.txt của bạn, điều này có thể buộc nó lên google, nhưng tôi không chắc chắn.


Bạn có thể cụ thể hơn không? Tôi thấy: Cấu hình trang web | Truy cập trình thu thập thông tin | Kiểm tra tệp robots.txt, nhưng kiểm tra văn bản bạn dán trong hộp, không phải tệp robot.txt trực tiếp của bạn - đồng thời, đây là nơi nó cho tôi biết khi nào nó được tải xuống lần cuối. Nút "xác minh" mà bạn nói đến ở đâu?
qxotk
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.