Hiểu số liệu thống kê thu thập dữ liệu của Google


11

Tôi đã ra mắt trang web của mình vào tháng 11 năm11 và nó được lập chỉ mục trong Google rất tuyệt vời - khoảng 300 trang nội dung cho đến nay. Tôi đang cố gắng hiểu những gì đã xảy ra với Thống kê thu thập thông tin vào khoảng cuối tháng 6 và đầu tháng 7. Điều gì đã gây ra sự leo thang lớn? Nó có nghĩa là gì đi về phía trước? Có điều gì khác tôi nên làm không?


nhập mô tả hình ảnh ở đây

Câu trả lời:


2

Nếu bạn cảm thấy rằng họ đang thu thập dữ liệu quá mức trang web của bạn (thậm chí có thể thiếu nội dung sâu hơn), bạn nên đảm bảo rằng các tiêu đề HTTP của bạn đang trả về các giá trị tốt cho những thứ như thời gian 'cuối cùng', v.v. Có thể Googlebot đánh giá quá cao trang web của bạn đang thay đổi . Như một phần thưởng, trang web của bạn sẽ hoạt động tốt hơn liên quan đến bộ nhớ đệm (có thể là proxy hoặc dựa trên trình duyệt) và do đó cảm thấy nhanh hơn một chút.

Bạn sẽ làm tốt việc nghiên cứu những URL nào đang được thu thập thông tin (bằng cách xem lại nhật ký máy chủ của bạn). Nếu họ đang thu thập lại cùng một URL nhiều lần, bạn chắc chắn có vấn đề. Một biến thể phổ biến ở đây là nếu bạn có một trang có thể được hiển thị theo nhiều cách khác nhau bằng các biến yêu cầu. Googlbot có thể cố gắng thu thập dữ liệu mọi sự kết hợp có thể có của các biến đó.

Một ví dụ tôi đã gặp khi làm toán tử thu thập dữ liệu là một trang có danh sách hai mươi tiêu đề, bất kỳ kết hợp nào trong số đó có thể được mở rộng. Về cơ bản, trang đó có 2 ^ 20 URL khác nhau!

Đảm bảo rằng Googlebot không bị kẹt khi thu thập thông tin về cùng một trang với các thông số khác nhau (tôi đã thấy nó bị cuốn vào điều này)


Cảm ơn vì điều này, tôi nhận thấy ngày hôm nay có một hoạt động 'tăng đột biến' khác vì vậy đang trở nên quan tâm hơn khi số liệu thống kê Thu thập thông tin của Google thu thập được 1.000 trang nội dung - Tôi chỉ có 300 trang! Làm cách nào để kiểm tra xem những trang nào Google đang thu thập lại nhiều lần? Và làm cách nào để kiểm tra xem các tiêu đề HTTP của tôi đang trả về các giá trị tốt - nó có Ứng dụng thử nghiệm không?
Ubique

Nhật ký máy chủ của bạn sẽ cho bạn biết những trang Google đang thu thập thông tin. Đối với các tiêu đề HTTP, có một số plugin Firefox. Cá nhân tôi sử dụng Fireorms.
Kris

1

Tôi đoán Google thay đổi tốc độ thu thập dữ liệu theo tuổi trang web, mức độ phổ biến (liên kết đến trang web của bạn), đánh dấu và tiêu đề, bản đồ trang web phù hợp, v.v. (ít nhất 2 tuần trước khi thay đổi).

Vì vậy, khi tôi phát hành blog của mình 2 năm trước, Google đã mất vài tháng để lập chỉ mục tất cả nội dung và tuần để lập chỉ mục các bài đăng mới. Bây giờ tôi thấy bất kỳ bài đăng nào trong kết quả tìm kiếm cùng ngày tôi xuất bản nó.

Điều đó đơn giản, google không thích các trang web mới nhưng tôn trọng người lớn tuổi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.