Google có phạt các thẻ <lastmod> được cập nhật hàng ngày trong sơ đồ trang web nếu dữ liệu không được cập nhật hàng ngày không?


10

Tôi đã có một sơ đồ trang web được tạo ra hàng ngày với rất nhiều liên kết đến các trang sản phẩm. Những sản phẩm này được nhập khẩu hàng ngày từ một nguồn dữ liệu khác. Bởi vì bản cập nhật bao gồm việc loại bỏ tất cả thông tin sản phẩm hiện tại và thay thế nó bằng thông tin mới được nhập, ngày sửa đổi cuối cùng luôn luôn nhảy một ngày. Điều này cũng được sử dụng trong sơ đồ trang web. Ngay cả đối với các sản phẩm không thay đổi. Tất cả các trang sản phẩm giả vờ đã được cập nhật.

Google sẽ phạt trang web vì giả vờ các trang đã thay đổi từ ngày này sang ngày khác trong khi họ không?

Giải pháp của tôi là chỉ thay đổi mục nhập nếu dữ liệu sản phẩm mới nhập khác với dữ liệu trước đó. Tôi chỉ muốn chắc chắn rằng đây là một bản nâng cấp hữu ích để thực hiện, trong khi tôi cũng có thể dành thời gian cho những cải tiến khác.

Câu trả lời:


5

Tôi chưa bao giờ nghe bất cứ điều gì về một hình phạt do điều này. Tệ nhất là bạn đang lãng phí thời gian của con nhện, nhưng đó là một phần lý do tại sao chúng ta có máy tính ở nơi đầu tiên: làm những việc lặp đi lặp lại tẻ nhạt. Tuy nhiên, lý tưởng nhất là bạn nên giải quyết vấn đề.

Điều này...

Giải pháp của tôi là chỉ thay đổi mục nhập nếu dữ liệu sản phẩm mới nhập khác với dữ liệu trước đó.

... là những gì bạn nên làm ngay từ đầu, bất kể các cân nhắc bên ngoài như sơ đồ trang web, v.v. Nếu nội dung của bạn không khác biệt (và tôi sẽ bao gồm xóa và thay thế bằng thông tin giống hệt trong mô tả đó), thì lastmodngày của bạn không nên Sẽ không được sửa đổi. Ở đây bạn đang lãng phí tài nguyên của riêng bạn. Bạn chưa nói có bao nhiêu sản phẩm có liên quan, nhưng sẽ có một điểm mà quá trình này sẽ trở nên chậm chạp và tốn kém về mặt tính toán.


Tôi hoàn toàn đồng ý. Tuy nhiên, tôi đáng tin cậy vào một công ty khác cung cấp dữ liệu. Họ luôn gửi mọi sản phẩm (+200) trong xuất dữ liệu của họ. Vì vậy, cập nhật lô dường như là giải pháp tốt nhất vài năm trước. Khách hàng của tôi không có ngân sách để giải quyết vấn đề này. Những lần xuất / nhập này xảy ra vào ban đêm, vì vậy các tài nguyên được sử dụng thêm không phải là vấn đề lớn tại thời điểm này.
Gợi ý

@Elicit nếu bạn vẫn gặp sự cố này, chỉ cần lưu trữ dữ liệu xuất từ ​​ngày trước ở định dạng gốc, có thể phân tích cú pháp và thực hiện so sánh kiểu git diff để xem sản phẩm nào đã thay đổi. Mặc dù nó tốt, nhưng bạn không cần họ chỉ gửi cho bạn các sản phẩm đã thay đổi; bạn sẽ có thể tự tìm ra nó.
Chim cánh cụt vô danh

3

Tôi chưa bao giờ thích ý tưởng cập nhật <lastmod>mỗi ngày vì nó không chỉ sai, đó là công cụ tìm kiếm sai lệch.

Trong một bài đăng trên SO , Gary Illyes của Google đã viết:

Thẻ lastmod là tùy chọn trong sơ đồ trang web và trong hầu hết các trường hợp, nó bị các công cụ tìm kiếm bỏ qua, bởi vì các quản trị web đang làm một công việc khủng khiếp để giữ cho nó chính xác.

Tôi thường ủng hộ cho việc sử dụng <lastmod>một cách chính xác, hoặc hoàn toàn không. Việc tắt nó đi (cũng như <changefreq>& <priority>) thậm chí còn làm cho tệp tự nhỏ hơn và nhanh hơn để các công cụ tìm kiếm cũng đọc được.


2

Không. Google sẽ sử dụng lastmodlàm gợi ý (giống như tất cả các giá trị của sơ đồ trang web) nhưng nếu quyết định rằng nội dung của bạn không được cập nhật hàng ngày thì đơn giản là họ sẽ bỏ qua nó và xem lại các trang của bạn theo lịch trình riêng.


2

Tôi không làm việc cho Google và không thể nói chắc chắn những gì họ thực sự làm, nhưng cách hợp lý để họ xử lý <lastmod>dấu thời gian sẽ là gợi ý không lãng phí thời gian để thu thập lại các trang không thay đổi.

Vì vậy, nếu bạn báo cáo tất cả các trang của mình là đã thay đổi mỗi ngày, Googlebot sẽ tiếp tục thu thập dữ liệu tất cả các trang của bạn theo bất kỳ thứ tự nào mà nó cảm thấy, thay vì chỉ tập trung vào các trang đã thay đổi. Trên thực tế, nó giống như là bạn không báo cáo bất kỳ dấu thời gian sửa đổi cuối cùng nào cả.

Lý do chính để cung cấp <lastmod>dấu thời gian chính xác là để thay đổi trang web của bạn hiển thị nhanh hơn trong chỉ mục của Google. Nếu bạn có hàng trăm trang trên trang web của mình, sẽ mất một thời gian để Google thu thập dữ liệu tất cả chúng và tìm thấy bất kỳ thay đổi nào. Tuy nhiên, nếu bạn nói với Googlebot những trang nào đã thay đổi gần đây, nó có thể thu thập dữ liệu các trang đó trước và tránh lãng phí quá nhiều thời gian cho phần còn lại.

Tất nhiên, thay vào đó, bạn chỉ có thể tăng tốc độ thu thập dữ liệu của Googlebot trong Công cụ quản trị trang web và hy vọng điều tốt nhất. Nhưng thực sự, không quá khó để làm cho tập lệnh cập nhật của bạn giữ được dấu thời gian. Ví dụ: tôi cho rằng bạn hiện đang làm một cái gì đó như thế này:

for each product do:
    write new page content into product page file;
end do;

Nếu vậy, chỉ cần thay đổi nó thành một cái gì đó như thế này:

for each product do:
    read old page content from product page file into string A;
    write new page content into string B;
    if A is not equal to B then:
        write string B into product page file;
    end if;
end do;

2

Không, nó chỉ đơn giản là bỏ qua thông tin bạn đã cung cấp khi nó không chính xác. Trong trường hợp này, trình thu thập dữ liệu web tự tìm hiểu tần suất họ nên thu thập dữ liệu trang của bạn.


Liên kết bị hỏng ...
Victor Schröder

1

Google sẽ không phạt bạn vì điều này. Để nhận được hình phạt, bạn thực sự cần phải đội mũ đen trên mông của Google, vì vậy đừng lo lắng về điều đó. Google sẽ sớm tìm ra nếu nội dung của bạn có thay đổi (đó là những gì họ đã làm việc trong vài năm qua) và sử dụng thuộc tính Lastmod làm gợi ý.


1

Tôi khuyên bạn nên đọc Thực tiễn tốt nhất này cho sơ đồ trang web XML & nguồn cấp dữ liệu RSS / Atom

Thời gian sửa đổi lần cuối

Chỉ định thời gian sửa đổi cuối cùng cho mỗi URL trong sơ đồ trang web XML và nguồn cấp dữ liệu RSS / Atom. Thời gian sửa đổi cuối cùng phải là lần cuối cùng nội dung của trang thay đổi có ý nghĩa. Nếu một thay đổi có nghĩa là hiển thị trong kết quả tìm kiếm, thì thời gian sửa đổi cuối cùng sẽ là thời gian của thay đổi này.

XML sitemap uses  <lastmod>
RSS uses <pubDate>
Atom uses <updated>

Hãy chắc chắn để đặt hoặc cập nhật chính xác thời gian sửa đổi lần cuối:

Specify the time in the correct format: W3C Datetime for XML sitemaps, RFC3339 for Atom and RFC822 for RSS.
Only update modification time when the content changed meaningfully.
Don’t set the last modification time to the current time whenever the sitemap or feed is served.

Cảm ơn bạn đã cập nhật. Hy vọng rằng downvoter sẽ nhìn thấy nó và đảo ngược phiếu bầu của họ.
John Conde
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.