Nếu bạn cảm thấy rằng họ đang thu thập dữ liệu quá mức trang web của bạn (thậm chí có thể thiếu nội dung sâu hơn), bạn nên đảm bảo rằng các tiêu đề HTTP của bạn đang trả về các giá trị tốt cho những thứ như thời gian 'cuối cùng', v.v. Có thể Googlebot đánh giá quá cao trang web của bạn đang thay đổi . Như một phần thưởng, trang web của bạn sẽ hoạt động tốt hơn liên quan đến bộ nhớ đệm (có thể là proxy hoặc dựa trên trình duyệt) và do đó cảm thấy nhanh hơn một chút.
Bạn sẽ làm tốt việc nghiên cứu những URL nào đang được thu thập thông tin (bằng cách xem lại nhật ký máy chủ của bạn). Nếu họ đang thu thập lại cùng một URL nhiều lần, bạn chắc chắn có vấn đề. Một biến thể phổ biến ở đây là nếu bạn có một trang có thể được hiển thị theo nhiều cách khác nhau bằng các biến yêu cầu. Googlbot có thể cố gắng thu thập dữ liệu mọi sự kết hợp có thể có của các biến đó.
Một ví dụ tôi đã gặp khi làm toán tử thu thập dữ liệu là một trang có danh sách hai mươi tiêu đề, bất kỳ kết hợp nào trong số đó có thể được mở rộng. Về cơ bản, trang đó có 2 ^ 20 URL khác nhau!
Đảm bảo rằng Googlebot không bị kẹt khi thu thập thông tin về cùng một trang với các thông số khác nhau (tôi đã thấy nó bị cuốn vào điều này)