Chúng tôi sử dụng sơ đồ trang web trên Stack Overflow, nhưng tôi có cảm xúc lẫn lộn về nó.
Trình thu thập dữ liệu web thường khám phá các trang từ các liên kết trong trang web và từ các trang web khác. Sơ đồ trang web bổ sung dữ liệu này để cho phép các trình thu thập thông tin hỗ trợ Sơ đồ trang web chọn tất cả các URL trong Sơ đồ trang web và tìm hiểu về các URL đó bằng siêu dữ liệu được liên kết. Sử dụng giao thức Sơ đồ trang web không đảm bảo rằng các trang web được bao gồm trong các công cụ tìm kiếm, nhưng cung cấp gợi ý cho các trình thu thập dữ liệu web để thực hiện công việc thu thập dữ liệu trang web của bạn tốt hơn.
Dựa trên kinh nghiệm hai năm của chúng tôi với sơ đồ trang web, có một điều cơ bản nghịch lý về sơ đồ trang web :
- Sơ đồ trang web dành cho các trang web khó thu thập thông tin chính xác.
- Nếu Google không thể thu thập dữ liệu trang web của bạn thành công để tìm liên kết, nhưng có thể tìm thấy nó trong sơ đồ trang web, nó sẽ không liên kết sơ đồ trang web và sẽ không lập chỉ mục cho nó!
Đó là nghịch lý sơ đồ trang web - nếu trang web của bạn không được thu thập thông tin chính xác (vì bất kỳ lý do gì), sử dụng sơ đồ trang web sẽ không giúp bạn!
Google cố gắng không đảm bảo sơ đồ trang web :
"Chúng tôi không thể đưa ra bất kỳ dự đoán hoặc đảm bảo về khi nào hoặc nếu URL của bạn sẽ được thu thập thông hoặc thêm vào chỉ mục của chúng tôi" trích dẫn
"Chúng tôi không đảm bảo rằng chúng tôi sẽ thu thập dữ liệu hoặc lập chỉ mục tất cả các URL của bạn. Ví dụ: chúng tôi sẽ không thu thập dữ liệu hoặc lập chỉ mục các URL hình ảnh có trong Sơ đồ trang web của bạn." trích dẫn
"gửi một Sơ đồ trang web không đảm bảo rằng tất cả các trang của trang web của bạn sẽ được thu thập thông hoặc bao gồm trong các kết quả tìm kiếm của chúng tôi" trích dẫn
Cho rằng các liên kết được tìm thấy trong sơ đồ trang web chỉ là các đề xuất , trong khi các liên kết được tìm thấy trên trang web của riêng bạn được coi là hợp quy ... có vẻ như điều hợp lý duy nhất cần làm là tránh có sơ đồ trang web và đảm bảo rằng Google và bất kỳ công cụ tìm kiếm nào khác có thể đúng nhện trang web của bạn bằng cách sử dụng các trang web tiêu chuẩn cũ đơn giản mà mọi người khác nhìn thấy.
Vào thời điểm bạn đã làm điều đó , và được phát hiện tốt và kỹ lưỡng để Google có thể thấy rằng trang web của riêng bạn liên kết đến các trang này và sẽ sẵn sàng thu thập các liên kết - uh, tại sao chúng ta lại cần một sơ đồ trang web? Sơ đồ trang web có thể gây hại tích cực, bởi vì nó làm bạn mất tập trung để đảm bảo rằng các công cụ tìm kiếm có thể thu thập dữ liệu thành công toàn bộ trang web của bạn. "Ồ, không có vấn đề gì nếu trình thu thập thông tin có thể nhìn thấy, chúng ta sẽ tát các liên kết đó trong sơ đồ trang web!" Thực tế hoàn toàn ngược lại trong kinh nghiệm của chúng tôi.
Điều đó có vẻ nhiều hơn một chút mỉa mai khi xem xét sơ đồ trang web dành cho các trang web có bộ sưu tập liên kết rất sâu hoặc giao diện người dùng phức tạp có thể khó bị nhện. Theo kinh nghiệm của chúng tôi, sơ đồ trang web không giúp ích gì, vì nếu Google không thể tìm thấy liên kết trên trang web của bạn một cách phù hợp, thì dù sao nó cũng sẽ không lập chỉ mục từ sơ đồ trang web. Chúng tôi đã thấy điều này được chứng minh hết lần này đến lần khác với các câu hỏi Stack Overflow.
Tôi có lầm không? Các sơ đồ trang web có ý nghĩa không, và bằng cách nào đó chúng ta chỉ sử dụng chúng không đúng cách?