Tôi nên bao gồm mọi thứ trong sơ đồ trang web hay chỉ nội dung mới?


13

Đối với một trang web có nội dung động (nội dung mới liên tục được thêm vào), tôi chỉ nên đưa nội dung mới nhất vào sơ đồ trang web hay tôi nên bao gồm mọi thứ (với chỉ mục sơ đồ trang web)? Các thực hành tốt nhất cho sơ đồ trang web đặc biệt là gì. cho các trang web lớn?

Ngoài ra, có cách nào để làm cho google (và các công cụ tìm kiếm khác) chỉ thu thập dữ liệu các trang trong sơ đồ trang web không?

Cảm ơn

Cập nhật:
Ngoài ra, bất kỳ ý tưởng làm thế nào stackoverflow xử lý này? Tôi muốn biết nhưng thật không may (cũng có thể hiểu được ) họ đã chặn quyền truy cập vào sơ đồ trang web của họ.


1
Làm thế nào lớn là trang web? Có giới hạn kích thước cho cả robot.txt và sơ đồ trang web. Thật ngạc nhiên, nhiều người vượt quá cả hai, đó là lý do tại sao tôi hỏi.
Tim Post

@Tim, hiện tại nó không thực sự lớn (mọi thứ có thể phù hợp với một sơ đồ trang web), nhưng tôi đang cố gắng lên kế hoạch trước.
Mee

Câu trả lời:


13

Bao gồm tất cả các trang. Mục đích của sơ đồ trang web XML là cho các công cụ tìm kiếm biết về tất cả nội dung của bạn. Không chỉ là những thứ mới.

Từ trang web sitemaps.org (nhấn mạnh của tôi):

Sơ đồ trang web là một cách dễ dàng để quản trị web thông báo cho các công cụ tìm kiếm về các trang trên trang web của họ có sẵn để thu thập thông tin .

Nếu bạn có nhiều nội dung, bạn có thể sử dụng nhiều sơ đồ trang XML .

Nếu bạn có nội dung mà bạn không muốn thu thập dữ liệu hoặc lập chỉ mục, bạn cần thông báo cụ thể cho các công cụ tìm kiếm không thu thập dữ liệu và lập chỉ mục các trang đó. Sử dụng tệp robot.txt để chặn bất kỳ trang hoặc thư mục nào bạn không muốn thu thập dữ liệu. Bạn cũng có thể sử dụng thẻ meta cho điều đó. Nhưng bạn không thể chỉ định trong sơ đồ trang web XML để không thu thập dữ liệu các trang chưa được liệt kê.


Cảm ơn câu trả lời của bạn, tôi sẽ bao gồm mọi thứ trong sơ đồ trang web.
Mee

Bạn có một lib có thể xử lý 50 + k trang không?

Là 50k + trang trong cơ sở dữ liệu?
John Conde

Bạn không cần phải đặt mọi trang trên trang web của mình trong sơ đồ trang web. Sơ đồ trang web rất hữu ích để thông báo cho các công cụ tìm kiếm về các trang có sẵn để thu thập thông tin. Nếu công cụ tìm kiếm có thể thấy mọi trang có thể thu thập thông tin và bạn không thêm thông tin về "lần sửa đổi cuối cùng", thì không có lý do gì để có một trang.
Django Reinhardt

1
Câu trả lời này có vẻ hơi mâu thuẫn với webmasters.stackexchange.com/a/5151/30596 . Trích dẫn @John Mueller từ Google,Using a Sitemap file won't reduce our normal crawling of your site. It's additional information, not a replacement for crawling. Similarly, not having a URL in a Sitemap file doesn't mean that it won't be indexed.
người dùng
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.