Đây là robot.txt của tôi :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.example.org/sitemap.xml.gz
Nhưng Google Webmaster Tools cho tôi biết rằng robot đang chặn quyền truy cập vào sơ đồ trang web:
Chúng tôi đã gặp lỗi khi cố gắng truy cập Sơ đồ trang web của bạn. Vui lòng đảm bảo Sơ đồ trang web của bạn tuân theo các nguyên tắc của chúng tôi và có thể được truy cập tại vị trí bạn cung cấp và sau đó gửi lại: URL bị giới hạn bởi robot.txt .
Tôi đọc rằng Công cụ quản trị trang web của Google lưu trữ tệp robots.txt , nhưng tệp đã được cập nhật hơn 36 giờ trước.
Cập nhật:
Đánh vào sơ đồ trang web TEST không khiến Google tìm nạp sơ đồ trang web mới. Chỉ có sơ đồ trang web SUBMIT là có thể làm điều đó. (BTW, tôi không thấy điểm nào trong 'sơ đồ trang web thử nghiệm' trừ khi bạn dán sơ đồ trang web hiện tại của mình vào đó - nó không lấy một bản sao mới của sơ đồ trang web từ địa chỉ mà nó yêu cầu bạn nhập trước khi kiểm tra - nhưng đó là một câu hỏi cho một ngày khác.)
Sau khi gửi (thay vì kiểm tra) một sơ đồ trang web mới, tình hình đã thay đổi. Bây giờ tôi nhận được "URL bị chặn bởi robot.txt . Sơ đồ trang web chứa các URL bị chặn bởi tệp robots.txt ." cho 44 URL. Có chính xác 44 URL trong sơ đồ trang web. Điều này có nghĩa là Google đang sử dụng sơ đồ trang web mới nhưng vẫn tuân theo quy tắc rô bốt cũ (giữ mọi thứ vượt quá giới hạn) Không có trong số 44 URL nằm trong /wp-admin/
hoặc /wp-includes/
(dù sao cũng không thể, vì robot.txt được xây dựng trên bay bằng cùng một plugin tạo ra sơ đồ trang web).
Cập nhật 2:
Nó trở nên tồi tệ hơn: trên trang kết quả Tìm kiếm của Google, mô tả cho trang chủ có nội dung: "Mô tả cho kết quả này không khả dụng do robot.txt của trang web này - tìm hiểu thêm". Tất cả các trang khác có mô tả tốt. Không có chương trình chặn meta của robot.txt hoặc HOẶC của trang chủ.
Tôi bị kẹt.