Giới hạn sơ đồ trang web:
Các tệp sơ đồ trang web có giới hạn 50.000 URL và 10 megabyte cho mỗi sơ đồ trang web. Sơ đồ trang web có thể được nén bằng gzip, giảm mức tiêu thụ băng thông. Nhiều tệp sơ đồ trang web được hỗ trợ, với tệp chỉ mục Sơ đồ trang web đóng vai trò là điểm nhập cảnh cho tổng số 1000 Sơ đồ trang web.
Lưu ý rằng bạn có thể chỉ định nhiều sơ đồ trang web trong tệp robot.txt của mình :
Nếu bạn đang va vào giới hạn, có thể chia người dùng của bạn bằng cách nào đó. Giả sử mỗi người dùng của bạn có không quá 10.000 url một mảnh, bạn có thể chia nó thành các tệp và thêm phần này vào robots.txt
tệp của mình :
Sitemap: http://www.example.com/sitemaps/users-001-005.xml
Sitemap: http://www.example.com/sitemaps/users-006-010.xml
Sitemap: http://www.example.com/sitemaps/users-011-015.xml
Sitemap: http://www.example.com/sitemaps/users-016-020.xml
Sitemap: http://www.example.com/sitemaps/users-021-025.xml
Sitemap: http://www.example.com/sitemaps/users-026-030.xml
Sitemap: http://www.example.com/sitemaps/users-031-035.xml
Sitemap: http://www.example.com/sitemaps/users-036-040.xml
Sitemap: http://www.example.com/sitemaps/users-041-045.xml
Sitemap: http://www.example.com/sitemaps/users-046-050.xml
Bây giờ, bạn vẫn phải chú ý đến giới hạn 10 MB cho mỗi sơ đồ trang web riêng lẻ, nhưng đây là một cách tiếp cận để xử lý vấn đề "quá nhiều" url.
Xem các tệp CNN và Google robots.txt
để xem nhiều sơ đồ trang web đang hoạt động.