Làm cách nào để xóa hàng ngàn URL khỏi bộ đệm của Google?


13

Google đã lưu trữ 1000 tệp PDF từ trang web của tôi không nên công khai. Tôi đã cập nhật các tiêu đề của mình, nhưng cần xóa bộ đệm Xem nhanh hiện có.

Công cụ quản trị trang web của Google cho phép tôi xóa từng cái một - tuy nhiên, điều này rõ ràng không thực tế với số lượng tệp cần xóa.

Có ai biết làm thế nào tôi có thể loại bỏ hàng loạt tệp PDF khỏi bộ nhớ cache của Google không? Lý tưởng nhất là tôi muốn một cách để xóa mọi thứ phù hợp với "trang web: mysite.com * .pdf"


3
Tìm kiếm nhanh trên google chỉ ra rằng không thể xóa hàng loạt bằng cách sử dụng google API, bạn phải kết hợp lại tập lệnh của riêng mình để xóa từng liên kết một

Câu trả lời:


9

Có vẻ như bạn đã tìm ra cách yêu cầu xóa một URL , điều này rõ ràng không nằm trong câu hỏi ở đây. Bước thứ hai trong quy trình đó cũng cho phép bạn yêu cầu xóa toàn bộ thư mục , nếu URL tệp được dự đoán theo cách cụ thể đó. (Nếu bạn có hàng ngàn tệp PDF, tôi hy vọng chúng ít nhất được tổ chức một chút.) Nếu không, thật đáng tiếc, bạn không có nhiều lựa chọn.


2

Gần đây tôi đã có một bản hack đã thêm vài nghìn trang không có thật vào trang web của tôi.

Tôi đã gửi một sơ đồ trang web đã sửa cho Google Search Console (trước đây gọi là Công cụ quản trị trang web) và chuyển tất cả các liên kết thành 410, nhưng Google vẫn có hầu hết các liên kết được lập chỉ mục.

Tôi đã sử dụng Công cụ WebMaster - Loại bỏ URL hàng loạt Tiện ích mở rộng Chrome để tự động gửi các url để xóa. Về cơ bản, nó là một tập lệnh lấy danh sách các URL sau đó gửi chúng cho bạn, mỗi lần một tập lệnh. Sẽ mất hàng giờ để gửi tất cả, nhưng ít nhất bạn sẽ không phải tự làm điều đó. Đây là một bài viết về cách sử dụng nó .

Bạn có thể nhận danh sách các URL mà google đang lập chỉ mục bằng cách tải xuống dữ liệu trực tiếp từ Search Console. Chuyển đến Trạng thái> Bảo hiểm Chỉ mục và chọn kết quả hợp lệ rồi cuộn xuống. Bạn sẽ thấy Google đã lập chỉ mục một tấn URL không có trong sơ đồ trang web của bạn. Bạn có thể tải 1000 kết quả đầu tiên. Rõ ràng có một cách vòng để có được tất cả chúng, không chỉ hàng ngàn đầu tiên, mà còn liên quan đến các lệnh gọi API từ excel. Tôi chỉ đợi vài ngày giữa mỗi ngàn, khi chúng dần rơi ra khỏi chỉ số.

Ảnh chụp nhanh Bảo hiểm Google Index

Một cách khác là để plugin WP tạo sơ đồ trang web, sau đó lọc ra các tệp PDF hoặc bất cứ thứ gì bạn đang nhắm mục tiêu. Có lẽ bạn sẽ phải thực hiện một chút sao chép / dán / xóa thủ công ở đây. Để đảm bảo an toàn, tôi từ từ cuộn qua danh sách khoảng 2.700 URL spam và xóa các URL hợp pháp. Chỉ mất khoảng 20 phút.

Nếu bạn không cố gắng loại bỏ vĩnh viễn một thứ gì đó, như thư rác, và thay vào đó đang cố gắng làm xáo trộn các tài nguyên cao cấp, bạn nên sử dụng các phương pháp khác để ngăn chặn việc lập chỉ mục các tài nguyên đó, chẳng hạn như tệp robot. Nhưng nếu hóa ra Google đã không lắng nghe hoặc bạn làm rơi trái bóng, thì ít nhất bây giờ bạn có thể khắc phục sự cố và xóa chúng khỏi chỉ mục chỉ sau vài ngày.

Trong trường hợp cụ thể của tôi, tôi tự hỏi tại sao Google không có nút máy thời gian, hoặc hoàn tác hoặc đặt lại. Ý tưởng là tôi có thể nói với Google rằng trang web đã bị hack vài ngày trước, nhưng chúng tôi đã sửa chữa nó, do đó hoàn tác x số ngày thu thập và lập chỉ mục cuối cùng. Nhưng điều đó sẽ quá dễ dàng.


1

Nếu các tập tin "không nên công khai" thì chúng nên có trên internet công cộng. Bạn có thể xóa các tệp khỏi danh sách Google (thông qua robot.txt và các phương pháp khác), nhưng nếu các tệp vẫn ở đó thì bất kỳ ai vẫn có thể tải xuống chúng.

Bạn nên giữ chúng đằng sau một số loại xác thực. Ví dụ: di chuyển các tệp ra khỏi thư mục web công cộng và phân phát chúng từ tập lệnh kiểm tra xem người dùng có hợp lệ trước không.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.