Tôi rất nghi ngờ rằng ngày xuất bản của bài đăng hoặc bài viết dựa trên <lastmod>
mục nhập trong sơ đồ trang web XML (như những người khác đã đề xuất) hoặc tiêu đề HTTP được sửa đổi lần cuối cho vấn đề đó. Sơ đồ trang web XML chỉ mang tính chất tư vấn, không có thẩm quyền. Ngày sửa đổi cuối cùng của một tài liệu có thể không giống với ngày xuất bản (bản gốc) của một bài viết. Và, như tôi đã đề cập trong nhận xét của mình ở đầu trang, ngày sửa đổi cuối cùng của tài liệu có lẽ quan trọng hơn đối với bộ đệm và có thể xác định tốc độ thu thập dữ liệu. Tiêu đề HTTP được sửa đổi lần cuối của các trang được tạo động thường rất gần với ngày / giờ thực tế (vì nó dành cho blog WordPress).
Mặt khác, nguồn cấp dữ liệu RSS / Atom có chứa thông tin cụ thể này. Và thực tế, trên các trang Wordpress không bao gồm ngày xuất bản trong nội dung, ngày xuất bản vẫn xuất hiện trong kết quả tìm kiếm của Google. Và theo như tôi có thể nói, điều này khớp với ngày trong RSS Feed.
EDIT # 1: Tuy nhiên, nguồn cấp RSS không nhất thiết phải chứa tất cả các trang. Trong hầu hết các trường hợp, nó chỉ nên chứa cái mới nhất hoặc được cập nhật gần đây nhất. Nhưng không có lý do gì mà Google nên quên những gì nó đã đọc và việc cung cấp nội dung của trang đó không thay đổi sau đó cũng không phải là ngày sửa đổi cuối cùng.
Nếu không có nguồn cấp dữ liệu RSS, tôi nghĩ Google đủ thông minh để phân tích nội dung trang. Đặc biệt nếu ngày được đánh dấu 'về mặt ngữ nghĩa' với sự trợ giúp của các vi định dạng . Hoàn toàn khả thi khi Google sẽ xem sau đây là ngày xuất bản có thẩm quyền cho một bài viết mà nó được chứa trong:
<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>
Google chắc chắn đã đọc các vi định dạng - hCard, hReview, v.v.
Chỉ cần thêm vào, tôi không nghĩ Google sẽ nêu ngày xuất bản trừ khi có thể tìm thấy thứ gì đó có thẩm quyền sẽ gợi ý điều này. Sẽ không suy ra 'ngày xuất bản' trên dữ liệu đầu cơ, vì 'ngày xuất bản' không chính xác sẽ không được sử dụng cho bất kỳ ai và Google sẽ nhận được rất nhiều ý kiến cho nó!
Và chỉ dành cho hồ sơ (nếu @Tom đề xuất khác :) Tôi nghĩ rằng bài viết / bài viết nên có ngày xuất bản hiển thị rõ ràng. Nhiều người không, và điều này có thể gây khó chịu cho người đọc, đặc biệt là khi nghiên cứu các vấn đề về công nghệ và bạn thấy rằng đã đọc được một nửa trong bài viết thì nó đã lỗi thời!
EDIT # 2: Tôi đã trải qua một sự khó chịu tương tự mà @mmdanziger nêu chi tiết trong câu trả lời của anh ấy. Trên một trong những trang web cũ của tôi, tôi có văn bản dưới dạng "Trang web được cập nhật lần cuối vào ngày 17 tháng 6 năm 2012" (không được đánh dấu theo bất kỳ cách đặc biệt nào) ở đầu mỗi trang (được viết lên trang bằng JavaScript !!). Đây cùng ngày đã được nhặt bởi Google và bây giờ xuất hiện cùng với nhiều trang (nhưng không phải tất cả) xuất hiện trong SERPS - điều này chắc chắn không phải là ngày xuất bản của trang. Có vẻ như Google chỉ đơn giản là loại bỏ trang cho một chuỗi có dạng "cập nhật lần cuối ( datestring )" (đã xử lý JavaScript !!). Trang web cụ thể này không có nguồn cấp dữ liệu RSS. Trang web này có tệp Sitemap.xml nhưng ngày khác nhau.
Tôi đã nhận thấy hành vi tương tự trên các trang web khác cũng có.