Làm cách nào để biết khi nào một URL cụ thể được Google lập chỉ mục đầu tiên? Tôi thích một giải pháp hoạt động ngay cả đối với các URL của đối thủ cạnh tranh không thuộc sở hữu của tôi.
Làm cách nào để biết khi nào một URL cụ thể được Google lập chỉ mục đầu tiên? Tôi thích một giải pháp hoạt động ngay cả đối với các URL của đối thủ cạnh tranh không thuộc sở hữu của tôi.
Câu trả lời:
Để biết tuổi của URL, bạn có thể theo liên kết này bằng cách thay thế www.example.com
bằng URL bạn muốn:
https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl
Ví dụ, đây là kết quả từ Google cho các trang web Meta của Stack Overflow :
Mặt khác, máy Wayback cũng là một giải pháp tốt nhưng ít chính xác hơn từ kinh nghiệm của tôi.
.fr
sang .com
.
www
cũng tại thời điểm này, nó hiển thị kết quả cho ngày Dec 1, 2014
mà là ngày gần đây không thể là tuổi của URL. Tôi đang tìm kiếm không chính xác? hay thiếu thứ gì?
Zistoloen đã tìm ra cách để Google hiển thị ngày khi lần đầu tiên lập chỉ mục nội dung của trang. Tôi cũng đang thêm nó vào câu trả lời của mình vì tôi nghĩ tôi có thể giải thích rõ ràng hơn.
Google sau đó sẽ hiển thị ngày mà nó phát hiện ra nội dung trên trang trong kết quả tìm kiếm.
Nếu trang được cập nhật với nội dung mới, Google cũng cập nhật ngày này. Vì vậy, đây là ngày "được lập chỉ mục nội dung đầu tiên" này hơn là ngày "được lập chỉ mục đầu tiên cho URL này".
Bộ đệm Google cho một trang hiển thị khi trang được lập chỉ mục lần cuối. Bạn có thể thấy rằng trang chủ Stack Exchange đã được lập chỉ mục lần cuối ngày hôm nay:
Một tùy chọn khác là sử dụng máy Wayback của Internet Archive . Điều đó cho bạn thấy một trang trông như thế nào trong quá khứ. Bạn có thể tìm ra khi các trang được xuất bản lần đầu tiên. Cả Google và Internet Archive thu thập dữ liệu và sử dụng trang ngay sau khi nó được xuất bản lần đầu tiên.
bing.com
. Xin lỗi nếu tôi sai?
Có thể không có cách nào để tìm hiểu khi một trang web tùy ý được Google lập chỉ mục lần đầu tiên - chắc chắn tôi không biết cách nào để làm như vậy. Có thể Google chỉ đơn giản là không lưu trữ thông tin đó, vì không có lý do thực sự tại sao họ cần. Bên cạnh đó, ngay cả khi họ lưu trữ thông tin này, họ thực sự không có lý do đặc biệt nào để cung cấp miễn phí cho bên thứ ba.
(Nếu đó là trang của riêng bạn và bạn có quyền truy cập vào nhật ký truy cập máy chủ web cũ của mình, thật dễ dàng - chỉ cần tìm kiếm nhật ký cho lần truy cập đầu tiên từ Googlebot đến trang đó. Nhưng nếu không thì không có cách nào để biết chắc chắn.)
Trong mọi trường hợp, phương pháp được mô tả bởi Zistoloen và Stephen Ostermiller trong câu trả lời của họ thường không tiết lộ ngày mà một URL cụ thể được Google lập chỉ mục lần đầu tiên. Thay vào đó, nó hiển thị ngày mà Google nghĩ rằng nội dung tại URL đã được xuất bản hoặc cập nhật lần cuối và thường dựa trên những nỗ lực đáng tin cậy hơn hoặc ít hơn của Google để "đánh hơi" ngày từ chính nội dung trang.
Trong video này , Matt Cutts của Google chạm nhanh vào cách chọn những ngày này. Để thuận tiện, tôi đã sao chép đoạn video có liên quan (khoảng từ 2:09 đến 2:22) bên dưới:
"... thường bạn sẽ thấy ngày, khi chúng tôi suy luận hoặc khi chúng tôi lần đầu tiên nhìn thấy nó, bất cứ khi nào chúng tôi thu thập dữ liệu trang đó hoặc nếu chúng tôi có thể tìm thấy nó ở đâu đó trên trang và chúng tôi có thể trích xuất ngày đó, bạn ' sẽ thấy điều đó ngay khi bắt đầu đoạn trích. "
Đối với các trang như bài đăng trên blog, trang wiki hoặc câu hỏi Stack Exchange, trong đó trang chạy phần mềm tự động báo cáo ngày tạo / sửa đổi chính xác trên trang đó, ngày được báo cáo bởi Google có thể khớp với ngày đó. Tuy nhiên, đối với các loại trang khác, trình thám thính ngày của Google phải làm việc chăm chỉ hơn và không phải lúc nào nó cũng đúng (bất cứ điều gì "đúng" có thể có nghĩa, trong ngữ cảnh này).
Cụ thể, những ngày này về cơ bản là vô dụng để xác định cách đây một trang được lập chỉ mục bao lâu , vì hai lý do:
Nếu một trang đã được sửa đổi gần đây và ngày sửa đổi được hiển thị nổi bật trên trang, Google có thể chọn nó là "ngày" của trang, ngay cả khi sửa đổi là hoàn toàn không đáng kể.
Ví dụ: trang wiki khá cũ này (được archive.org lập chỉ mục lần đầu tiên vào năm 2003 ) hiện đang được Google đánh giá là từ ngày 10 tháng 11 năm 2014 - ngày mà nó được chỉnh sửa gần đây nhất, như được hiển thị ở cuối trang. Sự thay đổi xảy ra vào ngày đó? Chỉ cần xóa một liên kết duy nhất từ dưới cùng của trang.
Ngược lại, Google dường như rất vui khi chấp nhận "ngày xuất bản" rất cũ nếu tìm thấy chúng trên trang - ngay cả những ngày trước khi ra mắt World Wide Web .
Ví dụ: trang này trong một cuộc thi lập trình cũ được Google đề ngày 15 tháng 9 năm 1986 - thực ra là ngày diễn ra sự kiện được mô tả trên trang. Tương tự, trang này ghi lại cuộc đình công của sinh viên năm 1970 được Google ghi ngày 10 tháng 5 năm 1970 (ngày của một trong những tài liệu được quét trên trang), và, thậm chí còn vô lý hơn, trang hướng dẫn Linux này được Google đề ngày đến ngày 4 tháng 11 , 1989 (một ngày ví dụ ngẫu nhiên được sử dụng trên trang).
Bạn có thể tìm thấy nhiều ví dụ như vậy bằng cách sử dụng tìm kiếm phạm vi ngày tùy chỉnh được mô tả bởi Stephen và Zistoloen, nhưng đặt đầu trên của phạm vi thành, giả sử, ngày 6 tháng 8 năm 1991 .