Google nhận ra ngày xuất bản của bài đăng như thế nào


17

Khi tôi tìm kiếm một cái gì đó trong Google, đôi khi tôi thấy ngày xuất bản của bài đăng / bài viết bên dưới. Tôi cũng đã tìm kiếm một bài viết của riêng tôi mà tôi có trên trang web do Wordpress cung cấp và Google cũng nhận ra ngày xuất bản của nó.

Khi tôi mở nguồn trang web của mình, tôi không thấy bất kỳ thẻ đặc biệt hoặc bất cứ điều gì cho biết ngày xuất bản. Nó chỉ được viết bằng một div thông thường, không có gì được gắn thẻ đặc biệt sẽ nói với SE rằng đó là ngày xuất bản (tôi cũng có thể có bất kỳ ngày nào khác về những thứ khác trên trang).

Vì vậy, nó được mã hóa vào Google là nơi chính xác của ngày xuất bản Wordpress trong cây DOM, hay tôi đang thiếu thứ gì đó?

Tôi đang xây dựng một trang web mới, với CMS của riêng tôi và tôi đang cố gắng tìm hiểu cách triển khai công nhận ngày được công bố.


2
Bạn chắc chắn đang thiếu một cái gì đó: bạn chỉ nhìn vào HTML, nhưng cũng có các tiêu đề HTTP cho biết khi một trang được sửa đổi. Họ đang báo cáo cho permalink bài viết của bạn là gì? Tôi đoán rằng Google sử dụng kết hợp với hồ sơ của riêng mình về việc trang đã thay đổi bao nhiêu, nhưng tôi không có bằng chứng thực tế - do đó nhận xét chứ không phải là câu trả lời.
Peter Taylor

vâng, tôi đã được một "thô" thử .. Tôi sẽ nhìn vào không phải là HTML yếu tố / header và sitemap như những người khác cũng đề nghị
Cần Poyrazoğlu

@Peter Không còn nghi ngờ gì nữa, các tiêu đề HTTP (đáng chú ý là tiêu đề được sửa đổi lần cuối) là một số liệu mà các SE sử dụng. Tuy nhiên, tôi nghi ngờ rằng nó đóng một phần trong việc xác định "ngày xuất bản" của một bài viết - ít nhất không phải là những gì Google hiển thị là ngày xuất bản. (Các SE khác không xuất hiện để hiển thị date ngày xuất bản '?) Ngày xuất bản của một bài viết có lẽ không phải là ngày sửa đổi cuối cùng của tài liệu. Hầu hết các trang trên các trang web động (ngay cả đối với các bài đăng wordpress) dường như trở lại gần với ngày / giờ hiện tại. IMO tiêu đề sửa đổi lần cuối chủ yếu được sử dụng để lưu trữ.
MrWhite

tôi nghĩ nó có liên quan đến sơ đồ trang web ..
Poyrazoğlu có thể

HTTP stackoverflow.com/questions/204010/ trên hoặc một số siêu dữ liệu HTML bán chuẩn: stackoverflow.com/questions/4575967/ là những khả năng khác, nhưng tôi không chắc liệu Google có thực sự sử dụng chúng không.
Ciro Santilli 心 心 事件

Câu trả lời:


4

bạn nên xem qua sơ đồ trang web xml hoặc phiên bản nguồn cấp RSS để lập chỉ mục dữ liệu xuất bản của mình thông qua các công cụ tìm kiếm lớn như Google, Yahoo và MSN. Tạo sơ đồ trang web XML cho trang web của bạn và gửi nó trong các công cụ tổng thể web để lập chỉ mục.


7

Tôi chỉ gặp sự cố là tất cả các trang chính của tôi đã được hiển thị là đã được cập nhật hơn 4 năm trước, mặc dù Google biết rằng điều đó không đúng vì các trang đã được lập chỉ mục từ lâu và thay đổi đáng kể từ tháng này sang tháng khác. Sau khi thực sự hoang mang, rồi thực sự bực mình, rồi lại hoang mang, cuối cùng tôi cũng tìm ra vấn đề. Các điều khoản pháp lý của chúng tôi đã được phục vụ trong một div ẩn với "Cập nhật lần cuối: ngày 30 tháng 10 năm 2007" và div đã được tải trên hầu hết các trang của chúng tôi. (Vì nó bật lên khi đăng ký) Tôi đã xóa nó và bây giờ tôi cho rằng ngày đó sẽ biến mất hoặc được sửa thành một cái gì đó hợp lý hơn.

Một câu chuyện cảnh báo và một bằng chứng nữa cho thấy họ kiểm tra ngữ nghĩa của trang web nhiều hơn các chi tiết kỹ thuật hoặc lịch sử lập chỉ mục của riêng họ.


Bạn có bao gồm ngày sửa đổi cuối cùng của các trang của bạn ở bất kỳ nơi nào khác trên trang hoặc nguồn cấp dữ liệu RSS hoặc sơ đồ trang web XML không?
MrWhite

Tôi không, bởi vì trang web không phải là một trang web tin tức và tôi không muốn nhấn mạnh nó. Lý tưởng nhất là sẽ không có ngày nào cho trang chủ của tôi. Ngoài ra, tôi tưởng tượng rằng họ có thể dùng viên thuốc cuối cùng với một hạt muối lớn - tôi biết tôi sẽ làm gì nếu tôi là họ.
mmdanziger

7

Tôi rất nghi ngờ rằng ngày xuất bản của bài đăng hoặc bài viết dựa trên <lastmod>mục nhập trong sơ đồ trang web XML (như những người khác đã đề xuất) hoặc tiêu đề HTTP được sửa đổi lần cuối cho vấn đề đó. Sơ đồ trang web XML chỉ mang tính chất tư vấn, không có thẩm quyền. Ngày sửa đổi cuối cùng của một tài liệu có thể không giống với ngày xuất bản (bản gốc) của một bài viết. Và, như tôi đã đề cập trong nhận xét của mình ở đầu trang, ngày sửa đổi cuối cùng của tài liệu có lẽ quan trọng hơn đối với bộ đệm và có thể xác định tốc độ thu thập dữ liệu. Tiêu đề HTTP được sửa đổi lần cuối của các trang được tạo động thường rất gần với ngày / giờ thực tế (vì nó dành cho blog WordPress).

Mặt khác, nguồn cấp dữ liệu RSS / Atom có ​​chứa thông tin cụ thể này. Và thực tế, trên các trang Wordpress không bao gồm ngày xuất bản trong nội dung, ngày xuất bản vẫn xuất hiện trong kết quả tìm kiếm của Google. Và theo như tôi có thể nói, điều này khớp với ngày trong RSS Feed.

EDIT # 1: Tuy nhiên, nguồn cấp RSS không nhất thiết phải chứa tất cả các trang. Trong hầu hết các trường hợp, nó chỉ nên chứa cái mới nhất hoặc được cập nhật gần đây nhất. Nhưng không có lý do gì mà Google nên quên những gì nó đã đọc và việc cung cấp nội dung của trang đó không thay đổi sau đó cũng không phải là ngày sửa đổi cuối cùng.

Nếu không có nguồn cấp dữ liệu RSS, tôi nghĩ Google đủ thông minh để phân tích nội dung trang. Đặc biệt nếu ngày được đánh dấu 'về mặt ngữ nghĩa' với sự trợ giúp của các vi định dạng . Hoàn toàn khả thi khi Google sẽ xem sau đây là ngày xuất bản có thẩm quyền cho một bài viết mà nó được chứa trong:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google chắc chắn đã đọc các vi định dạng - hCard, hReview, v.v.

Chỉ cần thêm vào, tôi không nghĩ Google sẽ nêu ngày xuất bản trừ khi có thể tìm thấy thứ gì đó có thẩm quyền sẽ gợi ý điều này. Sẽ không suy ra 'ngày xuất bản' trên dữ liệu đầu cơ, vì 'ngày xuất bản' không chính xác sẽ không được sử dụng cho bất kỳ ai và Google sẽ nhận được rất nhiều ý kiến ​​cho nó!

Và chỉ dành cho hồ sơ (nếu @Tom đề xuất khác :) Tôi nghĩ rằng bài viết / bài viết nên có ngày xuất bản hiển thị rõ ràng. Nhiều người không, và điều này có thể gây khó chịu cho người đọc, đặc biệt là khi nghiên cứu các vấn đề về công nghệ và bạn thấy rằng đã đọc được một nửa trong bài viết thì nó đã lỗi thời!

EDIT # 2: Tôi đã trải qua một sự khó chịu tương tự mà @mmdanziger nêu chi tiết trong câu trả lời của anh ấy. Trên một trong những trang web cũ của tôi, tôi có văn bản dưới dạng "Trang web được cập nhật lần cuối vào ngày 17 tháng 6 năm 2012" (không được đánh dấu theo bất kỳ cách đặc biệt nào) ở đầu mỗi trang (được viết lên trang bằng JavaScript !!). Đây cùng ngày đã được nhặt bởi Google và bây giờ xuất hiện cùng với nhiều trang (nhưng không phải tất cả) xuất hiện trong SERPS - điều này chắc chắn không phải là ngày xuất bản của trang. Có vẻ như Google chỉ đơn giản là loại bỏ trang cho một chuỗi có dạng "cập nhật lần cuối ( datestring )" (đã xử lý JavaScript !!). Trang web cụ thể này không có nguồn cấp dữ liệu RSS. Trang web này có tệp Sitemap.xml nhưng ngày khác nhau.

Tôi đã nhận thấy hành vi tương tự trên các trang web khác cũng có.


Làm thế nào để nó nhận ra ngày chính xác từ này? <div class="footer"> <div class="links"> April 24, 2011 | <a href=...Đây là vị trí DUY NHẤT đề cập đến ngày xuất bản của bài đăng của tôi và Google tìm thấy nó và hiển thị chính xác trong kết quả tìm kiếm
Can Poyrazoğlu

Có bất cứ điều gì cụ thể trong neo theo nó? Sau đó, một lần nữa, nó có thể không. Bạn cũng có nguồn cấp RSS (được liên kết trong các thẻ META của tài liệu)?
MrWhite

Tôi đang tìm kiếm câu trả lời "làm thế nào để google xác định ngày?" Nhưng nhận thấy điều tương tự! Google cố gắng tìm một chuỗi thời gian trong chính trang đó thay vì tiêu đề được sửa đổi lần cuối hoặc Sitemap.xml <lastmod>! Cảm ơn đã xác nhận suy nghĩ của tôi!
evilReiko

5

Tôi nghĩ rằng Google sử dụng Sơ đồ trang web và nguồn cấp dữ liệu RSS để nhận ra ngày xuất bản .. bạn có thể thực hiện tính năng này trong CMS của mình bằng cách tạo bản đồ trang web xml theo Tiêu chuẩn .

<lastmod>2011-08-18</lastmod>

2

Theo Jonh Mueller tại Google:

Chúng tôi sử dụng nhiều tín hiệu khác nhau để xác định ngày nào sẽ hiển thị hoặc nếu có ý nghĩa để hiển thị một ngày nào đó; nó không bị ràng buộc với một thuộc tính cụ thể.

John Mueller - Twitter

Tuy nhiên, tôi thấy rất có thể Google tìm kiếm ngày trên các trang web ở những nơi sau:

  • Nhìn rõ trên trang, sử dụng máy học
  • Schema.org dữ liệu có cấu trúc, đặc biệt là nếu dữ liệu cũng có thể được tìm thấy trong tầm nhìn rõ ràng trên trang

1

Tôi nghĩ rằng nó thông minh tìm kiếm bất kỳ ngày nào trên trang và khi nó tự tin rằng đó là ngày có liên quan thì nó sử dụng nó.

Đôi khi hơi khó khăn vì tôi nghĩ nó có thể có tác động tiêu cực đến khả năng nhấp của SERP, tôi cho rằng nó có thể có tác động tích cực tạm thời nếu đó là một bài viết / bài đăng gần đây nhưng tôi khá chắc chắn rằng các trang web của tôi sẽ tốt hơn nếu không có nó (Người tìm kiếm Google có thể không tốt hơn nếu không có nó!)

Không có tùy chọn để kiểm soát nó thông qua Google, chỉ với các phương pháp của riêng bạn. Bạn có thể:

  • Thay thế ngày bằng hình ảnh được tạo động để cố gắng ngăn Google phát hiện ra nó, nhưng điều này có thể dẫn đến các vấn đề khác như căn chỉnh trực quan / hiển thị phông chữ nhất quán / khả năng truy cập, v.v.
  • Tách tất cả các ngày từ các trang (điều này một lần nữa có thể gây khó chịu cho khách truy cập / người dùng khi họ muốn khám phá tuổi của nguồn nếu bạn có thông tin liên quan).

Vì những lý do này, tôi sẽ bỏ qua nó.


Tôi không cố xóa ngày :) Tôi đang cố thêm tính năng ngày vào một trang mới tôi đang xây dựng ..
Có thể Poyrazoğlu
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.