HTTP: Làm thế nào để bị xóa khỏi công cụ tìm kiếm tại một thời điểm nhất định trong tương lai?


7

Có cách nào để nói với các công cụ tìm kiếm, rằng một trang họ thu thập thông tin nên được đưa vào kết quả tìm kiếm ngay bây giờ, nhưng phải được xóa vào một thời điểm nhất định trong tương lai?

Tôi có một trang web nơi hàng trăm ấn phẩm xảy ra mỗi ngày và tôi muốn chúng được thu thập thông tin và có thể tìm kiếm được, nhưng tôi bắt buộc phải xóa thông tin sau một thời gian (ngày riêng cho mỗi trang).

Sau ngày đó, trang sẽ không hiển thị trên trang web của tôi nữa (phản hồi HTTP đã hết 410), nhưng trang sẽ tồn tại trong ví dụ như bộ đệm google trong một thời gian, điều này có thể gây ra sự cố pháp lý cho tôi. Rõ ràng, không thể phát hành hàng trăm yêu cầu xóa nội dung cho google bằng tay. Mặt khác, các trang riêng lẻ không được sửa đổi trong một vài tháng cho đến khi chúng phải bị loại bỏ, vì vậy google bot sẽ không đăng ký thường xuyên.

Đối với những gì tôi hiểu, tiêu đề Hết hạn HTTP là nhãn cho các sinh viên mới tối thiểu và không có tuổi thọ tối đa, đúng không? Tôi đang gửi các tiêu đề sửa đổi lần cuối và etag, nhưng họ không giúp đỡ ở đây. Có cách nào để nói "bộ nhớ cache, nhưng chỉ đến 2011-08-15" không?


Đối với google, bạn có thể thử: <meta name = "googlebot" content = "nosnippet">

Ngoài ra, thẻ noarchive yêu cầu Google không lưu trữ bản sao được lưu trong bộ nhớ cache của trang của bạn.

Câu trả lời:


5

Đối với google, có một thẻ meta được gọi là không có sẵn_after , nó thực hiện chính xác những gì tôi đang tìm kiếm: Nó bảo google xóa một trang nhất định tại một thời điểm cụ thể trong tương lai.

Đó là cách duy nhất để đạt được những gì tôi đã hy vọng đạt được: Tự động xóa các trang, đúng thời điểm, không dựa vào trình thu thập thông tin để quay lại và nhận thấy phản hồi 410 Gone, có thể mất một tuần sau khi nội dung đã được loại bỏ.

Thí dụ:

<META NAME = "GOOGLEBOT" NỘI DUNG = "không có sẵn_ sau: 25-tháng 8 năm 2007 15:00:00 EST" />

Hoặc với tiêu đề HTTP, cho các tệp PDF, v.v.:

X-Robots-Tag: không có sẵn_ sau: 23 tháng 7 năm 2007 15:00:00 PST

Nguồn: http://googleblog.blogspot.com/2007/07/robots-exinating-protatio-now-with-even.htmlhttp://www.google.com/support/webmasters/ons.py? câu trả lời = 79812

Tôi không thể tìm hiểu xem Bing, Yahoo & Co có chấp nhận thẻ cụ thể này của Google không.


2

Trước hết, bạn không có quyền kiểm soát những gì công cụ tìm kiếm thu thập thông tin và những gì họ đưa vào chỉ mục của họ.

NHƯNG , Google chẳng hạn đang lấy thông tin của bạn về thời gian hoạt động của các trang của bạn rất nghiêm túc. Vì vậy, nếu bạn thêm tiêu đề HTTP chính xác, nó sẽ xem xét những thông tin đó. Bạn cũng có thể thêm một số thông tin vào tệp robots.txt của mình về trang nào không hợp lệ.

Ngoài ra còn có các công cụ Quản trị trang web nơi bạn có thể yêu cầu Google xóa các trang khỏi chỉ mục.

Trên blog quản trị trang web chính thức của Google, bạn sẽ tìm thấy thông tin rất hữu ích về việc xóa URL khỏi chỉ mục và cách bao gồm lại nội dung . Họ nói rằng bạn có thể xóa URL bằng cách:

  • sử dụng 410,
  • robot.txt hoặc
  • thẻ meta noindex
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.