Tôi có thể gọi Google để kiểm tra tệp robots.txt của mình không?

11

Tôi đã đọc các câu trả lời trong câu hỏi này, nhưng chúng vẫn để mở câu hỏi của tôi: Google có bộ đệm robot.txt không?

Tôi đã không tìm thấy cách nào trong Công cụ quản trị trang web của Google để yêu cầu tải xuống lại tệp robots.txt của mình .

Thông qua một số lỗi, robot.txt của tôi đã được thay thế bằng:

User-agent: *
Disallow: /

Và bây giờ tất cả nội dung của tôi đã bị xóa khỏi kết quả tìm kiếm của Google.

Rõ ràng, tôi quan tâm đến việc sửa lỗi này càng sớm càng tốt. Tôi đã thay thế tệp robots.txt , nhưng tôi không thể tìm cách khiến Google cập nhật phiên bản được lưu trong bộ nhớ cache.

nhập mô tả hình ảnh ở đây

google google-search-console robots.txt

— Der Hochstapler
nguồn

1

Chỉ không cho phép tất cả các trang của bạn trong robot.txt nói chung là không đủ để xóa hoàn toàn chúng khỏi kết quả của Google, miễn là các trang web khác vẫn liên kết với chúng.

— Ilmari Karonen

Hmm nó là một khó khăn. Các URL ZenCart dường như gây nhầm lẫn cho bot trình thu thập dữ liệu web robots.txt và trước khi bạn biết điều đó, bạn đã chặn các URL mà bạn không muốn bị chặn. Kinh nghiệm của tôi là bạn sẽ tốt hơn nếu không có robot.txt, nhưng chỉ cần giữ một trang web sạch sẽ. Tôi đã mất nhiều vị trí xếp hạng web do lỗi URL.txt này của các URL hợp lệ. Vì ZenCart sử dụng URL động nên dường như gây nhầm lẫn cho trình thu thập dữ liệu web của tệp robots.txt dẫn đến việc chặn các URL mà bạn không muốn bị chặn. Không chắc chắn liệu nó có liên quan đến việc vô hiệu hóa một danh mục trong ZenCart hay không và sau đó di chuyển các sản phẩm ra khỏi danh mục đó a

10

Bạn không thể khiến họ tải xuống lại tệp robots.txt của bạn khi bạn muốn. Google sẽ thu thập lại dữ liệu và sử dụng dữ liệu mới bất cứ khi nào họ cảm thấy phù hợp với trang web của bạn. Họ có xu hướng thu thập dữ liệu thường xuyên vì vậy tôi sẽ không mất nhiều thời gian để tìm thấy tệp cập nhật của bạn và các trang của bạn được thu thập lại và lập chỉ mục lại. Hãy nhớ rằng có thể mất một thời gian sau khi tìm thấy tệp robot.txt mới trước khi các trang của bạn được thu thập lại và thậm chí nhiều thời gian hơn để chúng xuất hiện lại trong kết quả tìm kiếm của Google.

— John Conde
nguồn

1

Theo họ họ kiểm tra hàng ngày hoặc lâu hơn, nhưng có lẽ họ kiểm tra thường xuyên hơn cho các trang web bận rộn. Xem webmasters.stackexchange.com/a/32949/17430 .

— studgeek

1

Tôi đã đối mặt với cùng một vấn đề khi tôi bắt đầu trang web mới của mình www.satyabrata.comvào ngày 16 tháng Sáu.

Tôi đã có một Disallow: /trong tệp robots.txt của mình , giống hệt Oliver. Ngoài ra còn có một thông báo cảnh báo trong Google Webmaster Tools về các URL bị chặn.

Vấn đề đã được giải quyết vào ngày hôm qua, 18 tháng 6. Tôi đã làm như sau. Tôi không chắc bước nào làm việc.

Sức khỏe -> Tìm nạp dưới dạng Google: robot.txt và trang chủ. Sau đó, gửi chỉ mục.
Cài đặt -> Miền được ưu tiên: Hiển thị URL dưới dạng www.satyabrata.com
Tối ưu hóa -> Sơ đồ trang web: Đã thêm sơ đồ trang web XML.

Thông báo cảnh báo về các URL bị chặn đã biến mất và robot.txt mới được hiển thị được tải xuống trong Công cụ quản trị trang web của Google.

Hiện tại, tôi chỉ có hai trang được lập chỉ mục trong Google, trang chủ và robot.txt . Tôi có 10 trang trên trang web. Tôi hy vọng phần còn lại sẽ sớm được lập chỉ mục.

— Satyabrata
nguồn

0

Tôi gặp sự cố khi các hình ảnh được chuyển đến một máy chủ CNAME riêng và không cho phép vào thư mục hình ảnh. Cách tôi đã xóa nó là lấy robot.txt trong trang web Công cụ quản trị trang web đọc dưới dạng công cụ Google. Khi nó nói với tôi rằng nó đã lấy và đọc robot.txt, tôi đã gửi nó. Điều này đã phá vỡ lệnh cấm vận ba tháng đối với việc quét hình ảnh trong đó Google báo cáo rằng họ đang đọc tệp robot.txt nhưng không thay đổi nội dung của nó để phù hợp với các quy tắc đã được thay đổi để cho phép thư mục hình ảnh. Trong vòng một tuần, hình ảnh đã được lập chỉ mục một lần nữa.

Có thể đáng thử. Google được biết là thỉnh thoảng bị kẹt và không đọc lại tệp.

— Phòng thí nghiệm Fiasco
nguồn

Họ đọc lại tập tin khoảng 6 giờ sau khi tôi đăng. Bây giờ mọi thứ đã trở lại bình thường.

— Der Hochstapler

Phù! Quay lại theo dõi rồi!

— Phòng thí nghiệm Fiasco

Tôi đã thử yêu cầu các công cụ quản trị trang web tìm nạp robot.txt, nó đã phàn nàn rằng nó đã bị từ chối bởi robots.txt :). Vì vậy, rõ ràng mánh khóe đó sẽ không hoạt động nếu bạn có robot.txt thực hiện một khối đầy đủ.

— studgeek

Tương tự ở đây ... Yêu cầu robot.txt bị từ chối bởi robots.txt! Hừ!

— Kasapo

Whelp, nếu bạn từ chối từ gốc thì tôi đoán bạn là loại SOL. Trong trường hợp của tôi, đó là một thư mục con đã bị từ chối, do đó buộc phải đọc lại robot.txt thông qua các cơ chế được cung cấp thực sự hoạt động.

— Phòng thí nghiệm Fiasco

-1

Tôi hy vọng liên kết này sẽ giúp bạn thu thập dữ liệu trang web của mình: https://support.google.com/adsensefurt/10532?hl=vi .

Xóa /khỏi tệp robots.txt của bạn .

— Kumail
nguồn

Đó không phải là câu hỏi này là gì

— Der Hochstapler

-1

Trong trường hợp của tôi, vấn đề là tôi đã sử dụng một dịch vụ DNS miễn phí có tên là sợ.org.

(tên miền miễn phí của tôi đã kết thúc .us.to)

Khi tôi chuyển sang TLD, nó bắt đầu hoạt động.

— Stefan Monov
nguồn

Tôi không thấy DNS hoặc có trang web miễn phí phải làm gì với robot.txt hoặc bảo Google tải lại.

— Stephen Ostermiller

@StephenOstermiller: Tôi cũng không thấy, nhưng thực tế là, điều này đã giúp ích trong trường hợp của tôi.

— Stefan Monov

Nó đã giúp Google kiểm tra robot.txt của bạn?

— Stephen Ostermiller

@StephenOstermiller: Vâng.

— Stefan Monov