Công cụ quản trị trang web của Google cho tôi biết rằng robot đang chặn quyền truy cập vào sơ đồ trang web

Đây là robot.txt của tôi :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Nhưng Google Webmaster Tools cho tôi biết rằng robot đang chặn quyền truy cập vào sơ đồ trang web:

Chúng tôi đã gặp lỗi khi cố gắng truy cập Sơ đồ trang web của bạn. Vui lòng đảm bảo Sơ đồ trang web của bạn tuân theo các nguyên tắc của chúng tôi và có thể được truy cập tại vị trí bạn cung cấp và sau đó gửi lại: URL bị giới hạn bởi robot.txt .

Tôi đọc rằng Công cụ quản trị trang web của Google lưu trữ tệp robots.txt , nhưng tệp đã được cập nhật hơn 36 giờ trước.

Cập nhật:

Đánh vào sơ đồ trang web TEST không khiến Google tìm nạp sơ đồ trang web mới. Chỉ có sơ đồ trang web SUBMIT là có thể làm điều đó. (BTW, tôi không thấy điểm nào trong 'sơ đồ trang web thử nghiệm' trừ khi bạn dán sơ đồ trang web hiện tại của mình vào đó - nó không lấy một bản sao mới của sơ đồ trang web từ địa chỉ mà nó yêu cầu bạn nhập trước khi kiểm tra - nhưng đó là một câu hỏi cho một ngày khác.)

Sau khi gửi (thay vì kiểm tra) một sơ đồ trang web mới, tình hình đã thay đổi. Bây giờ tôi nhận được "URL bị chặn bởi robot.txt . Sơ đồ trang web chứa các URL bị chặn bởi tệp robots.txt ." cho 44 URL. Có chính xác 44 URL trong sơ đồ trang web. Điều này có nghĩa là Google đang sử dụng sơ đồ trang web mới nhưng vẫn tuân theo quy tắc rô bốt cũ (giữ mọi thứ vượt quá giới hạn) Không có trong số 44 URL nằm trong /wp-admin/hoặc /wp-includes/(dù sao cũng không thể, vì robot.txt được xây dựng trên bay bằng cùng một plugin tạo ra sơ đồ trang web).

Cập nhật 2:

Nó trở nên tồi tệ hơn: trên trang kết quả Tìm kiếm của Google, mô tả cho trang chủ có nội dung: "Mô tả cho kết quả này không khả dụng do robot.txt của trang web này - tìm hiểu thêm". Tất cả các trang khác có mô tả tốt. Không có chương trình chặn meta của robot.txt hoặc HOẶC của trang chủ.

Tôi bị kẹt.

google-search-console robots.txt web-crawlers

— Gaia
nguồn

Trong Công cụ quản trị trang web của Google> Sức khỏe> URL bị chặn, bạn có thể kiểm tra ngay xem robot.txt của bạn có chặn URL sơ đồ trang web của bạn không (hoặc bất kỳ URL nào khác bạn muốn kiểm tra). Có vẻ như robot.txt hiện tại của bạn sẽ chặn sơ đồ trang web của bạn, nhưng bạn nói điều này đã được cập nhật. Có phải một phiên bản trước của tệp robot.txt của bạn đã chặn điều này?

— MrWhite

Có, phiên bản trước đã chặn. Tôi đoán google vừa không cập nhật bộ đệm của mình ...

— Gaia

Tôi có chính xác vấn đề CÙNG. Bộ nhớ cache tệp robots.txt của tôi là từ ngày 23 tháng 4 năm nay, hôm nay là ngày 25 tháng 4 và bộ đệm vẫn còn cũ. Tôi không có thời gian chờ đợi, tôi cần googleboot để lập chỉ mục trang web của mình ngay bây giờ (đó là trang web kinh doanh) nhưng dường như tôi không thể làm gì, chỉ chờ đợi không biết bao lâu. Thật là bực bội!

Câu trả lời:

Có vẻ như Google có thể chưa cập nhật bộ nhớ cache của tệp robot.txt của bạn. Tệp robot.txt hiện tại của bạn (ở trên) trông không giống như nó sẽ chặn URL sơ đồ trang web của bạn.

Tôi đoán google vừa không cập nhật bộ đệm của nó.

Không cần phải đoán. Trong Công cụ quản trị trang web của Google (GWT) trong "Sức khỏe"> "URL bị chặn", bạn có thể biết khi nào tệp robots.txt của bạn được tải xuống lần cuối và liệu nó có thành công hay không. Nó cũng sẽ thông báo cho bạn biết có bao nhiêu URL đã bị chặn bởi tệp robots.txt.

tham chiếu robot.txt trong Công cụ quản trị trang web của Google

Như đã đề cập trong nhận xét của tôi, GWT có công cụ kiểm tra robot.txt ("Sức khỏe"> "URL bị chặn"). Vì vậy, bạn có thể kiểm tra ngay các thay đổi đối với tệp robots.txt của mình (mà không thay đổi tệp thực tế của bạn). Chỉ định tệp robot.txt trong vùng văn bản trên và các URL bạn muốn kiểm tra ở vùng văn bản dưới và nó sẽ cho bạn biết liệu chúng có bị chặn hay không.

Bộ nhớ đệm của tệp robots.txt

Yêu cầu robot.txt thường được lưu trong bộ nhớ cache tối đa một ngày, nhưng có thể được lưu trong bộ nhớ cache lâu hơn trong các trường hợp không thể làm mới phiên bản được lưu trong bộ nhớ cache (ví dụ: do hết thời gian hoặc lỗi 5xx). Phản hồi được lưu trữ có thể được chia sẻ bởi các trình thu thập thông tin khác nhau. Google có thể tăng hoặc giảm tuổi thọ bộ đệm dựa trên các tiêu đề HTTP Kiểm soát bộ nhớ cache tối đa.

Nguồn: Google Developers - Thông số kỹ thuật của Robots.txt

— Ông WHITE
nguồn

Có thể đó vẫn là trường hợp 24 giờ sau ??

— Gaia

Ngày "Đã tải xuống" như được báo cáo trong Công cụ quản trị trang web là gì? Điều đó sẽ cho bạn biết nếu nó vẫn là trường hợp . Như được hiển thị trong ảnh chụp màn hình ở trên (từ một trong các trang web của tôi), tệp robot.txt đã được tải xuống lần cuối vào "ngày 3 tháng 9 năm 2012" (3 ngày trước). Nhưng trong trường hợp của tôi, không cần phải tải lại tệp vì không có gì thay đổi (tiêu đề Sửa đổi lần cuối phải giống nhau). Tần suất Google tìm nạp tệp robot.txt của bạn sẽ phụ thuộc vào Tiêu đề hết hạn và Sửa đổi lần cuối như được đặt bởi máy chủ của bạn.

— MrWhite

Đã tải xuống 22 giờ trước và hết hạn tiêu đề cho biết +24 giờ. Tôi sẽ thử lại sau vài giờ nữa.

— Gaia

Điều đó đã không làm điều đó. google đang sử dụng sơ đồ trang web mới nhưng nó vẫn tuân theo quy tắc robot.txt cũ (giữ mọi thứ vượt quá giới hạn)

— Gaia

"Điều đó đã không làm điều đó" - Google chưa cập nhật bộ đệm của tệp robot.txt của bạn phải không? Mặc dù bạn nói rằng bạn đã thay đổi tệp 36+ giờ trước và nó đã được báo cáo là đã tải xuống 22 giờ trước?! Bạn thấy gì khi bạn nhấp vào liên kết đến tệp robot.txt của bạn?

— MrWhite

Tôi gặp vấn đề tương tự với trang web của mình vì trong quá trình cài đặt WP, tôi chọn không theo dõi với công cụ tìm kiếm hoặc tùy chọn tương tự.

Để giải quyết vấn đề này:

đi tới Công cụ quản trị trang web thu thập dữ liệu URL và gửi www.example.com/robots.txttùy chọn của bạn với tùy chọn này -> xóa khỏi bộ đệm để thay đổi nội dung hoặc ...
chờ một chút
gửi lại URL sơ đồ trang web của bạn
hoàn thành

— Mohammad
nguồn