Có thể làm chậm tần số thu thập dữ liệu Baiduspider không?

18

Phần lớn đã được tạo ra từ tần số thu thập dữ liệu nhện nhện. Đó là sự thật: "Baiduspider bò như điên."

Tôi đã trải nghiệm hiện tượng này tại các trang web tôi làm việc cùng. Trong ít nhất một trường hợp, tôi đã thấy rằng Baiduspider thu thập dữ liệu ở cùng tần số với Googlebot, mặc dù thực tế là Yahoo cung cấp lưu lượng truy cập khoảng 1% như Google.

Tôi muốn giữ các lượt truy cập đó trên trang web của mình, ít nhất là như vậy (có thể một ngày nào đó chúng sẽ phát triển?), Nhưng tôi không thể biện minh cho phép tải nặng như vậy trên máy chủ của mình.

Câu trả lời được chấp nhận cho câu hỏi được liên kết ở trên cho thấy Công cụ quản trị trang web của Baidu cung cấp cơ hội để hạn chế tốc độ thu thập dữ liệu, nhưng tôi ngần ngại mở ra những con giun (chỉ có ở Trung Quốc).

Có ai có bất kỳ kinh nghiệm nào trong việc giới hạn tốc độ thu thập dữ liệu Baiduspider với BWT không? Có cách nào khác để hạn chế tải này không?

— samthebrand
nguồn

11

Câu hỏi tuyệt vời, và một trong số nhiều quản trị web có thể quan tâm vì nhện Baidu nổi tiếng là hung dữ và có thể hạ gục tài nguyên từ máy chủ ...

Như được chỉ ra trong tin tức Tìm kiếm trên web của Yahoo, con nhện Baidu không hỗ trợ cài đặt thông báo trì hoãn Thu thập thông tin và thay vào đó yêu cầu bạn phải đăng ký và xác minh trang web của mình với nền tảng Công cụ quản trị trang web của nó, như đã nêu ở đây trên trang web của nó. Đây dường như là lựa chọn duy nhất để kiểm soát tần số thu thập dữ liệu trực tiếp với Yahoo.

Vấn đề là các bot spam khác sử dụng các tác nhân người dùng của Yahoo (được liệt kê ở đây dưới số 2) để truy cập trang web của bạn, như được nêu trong Câu hỏi thường gặp của họ ở đây dưới số 4. Vì vậy, yêu cầu tốc độ thu thập dữ liệu chậm hơn với Baidu có thể không giải quyết được mọi thứ.

Do đó, nếu bạn quyết định sử dụng Công cụ quản trị trang web của Yahoo, thì cũng nên khôn ngoan khi so sánh các tác nhân người dùng của nó với IP được biết là được liên kết với chúng bằng cách sử dụng tài nguyên như Cơ sở dữ liệu Bots vs Trình duyệt hoặc sử dụng tra cứu DNS ngược

Các lựa chọn duy nhất khác là chặn tất cả các tác nhân người dùng của Baidu và do đó hy sinh lưu lượng truy cập tiềm năng từ Baidu hoặc cố gắng hạn chế các yêu cầu quá mức bằng cách sử dụng một cái gì đó như mod_qos cho Apache, nơi tuyên bố quản lý:

Số lượng yêu cầu đồng thời tối đa đến một vị trí / tài nguyên (URL) hoặc máy chủ ảo.
Giới hạn băng thông, chẳng hạn như số lượng yêu cầu tối đa được phép mỗi giây đối với một URL hoặc tối đa / tối thiểu của kbyte được tải xuống mỗi giây.
Giới hạn số lượng sự kiện yêu cầu mỗi giây (điều kiện yêu cầu đặc biệt).
Nó cũng có thể "phát hiện" những người rất quan trọng (VIP) có thể truy cập máy chủ web mà không hoặc có ít hạn chế hơn.
Dòng yêu cầu chung và bộ lọc tiêu đề để từ chối các hoạt động trái phép. Yêu cầu giới hạn và lọc dữ liệu cơ thể (yêu cầu mod_parp).
Các hạn chế về cấp độ kết nối TCP, ví dụ: số lượng kết nối được phép tối đa từ một địa chỉ nguồn IP duy nhất hoặc điều khiển duy trì động.
Thích địa chỉ IP đã biết khi máy chủ hết kết nối TCP miễn phí.

Tôi chưa tìm thấy các trải nghiệm được báo cáo với Công cụ quản trị trang web của Yahoo, tải chậm và có vấn đề về dịch thuật (cũng không có phiên bản tiếng Anh). Điều đó có thể hữu ích, nhưng tất nhiên dựa trên quan điểm.

— dan
nguồn

1

Điều này thực sự hữu ích @Dan. Thử một vài trong số các giải pháp này (Công cụ quản trị trang web của Baidu là một nỗi đau thực sự.) Sẽ báo cáo lại.

— samthebrand

1

Cảm ơn! Tuyệt vời - Tôi sẽ cập nhật điều này nếu tôi cũng tìm thấy bất kỳ tùy chọn nào khác. Câu hỏi này phản ánh rất nhiều sự thất vọng của các quản trị web với các bot hung hăng và mối quan tâm với việc tương tác với chúng (ví dụ: Công cụ quản trị trang web của Baidu). Hy vọng các bot hợp pháp sẽ cân nhắc điều này và các công cụ / tùy chọn tốt hơn sẽ trở nên khả dụng.

— dan

@samthebrand và dan - vui lòng báo cáo lại! Bạn đã tìm thấy bất kỳ giải pháp khác mà bạn có thể đề nghị?

— thống lazysound

5

Sau rất nhiều nghiên cứu và thử nghiệm với điều này, cuối cùng tôi đã cắn viên đạn và thiết lập một tài khoản Công cụ quản trị trang web của Baidu. Nó khá đơn giản để sử dụng khi được trang bị Google Dịch trong một cửa sổ khác. Bạn có thể cần phải kích hoạt fireorms để có thể sao chép và dán văn bản tiếng Trung từ các nút mà bạn không thể chụp từ chế độ trình duyệt thông thường.

Sau khi bạn đã thiết lập, bạn cần đợi một vài ngày để thu thập dữ liệu xuất hiện và sau đó bạn có thể tùy chỉnh tốc độ thu thập dữ liệu. Nó xuất hiện trong một phần có tên là "Áp lực" mà bạn sẽ có thể truy cập bằng URL này:
http : //zhanzhang.b Nikol.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Lưu ý rằng bạn sẽ chỉ có thể sử dụng URL này nếu bạn có thiết lập tài khoản Công cụ quản trị trang web của Baidu và bạn đã liên kết URL trang web của mình với tài khoản của bạn cho trang web được đề cập). Ở đây bạn sẽ thấy một thanh trượt với tốc độ thu thập dữ liệu hiện tại của bạn ở trung tâm (trong trường hợp của tôi là 12676 yêu cầu mỗi ngày. Trượt nó sang bên trái để giảm tốc độ thu thập dữ liệu.

Tôi không có ý tưởng nào nếu nó thực sự tôn trọng yêu cầu của bạn. Nó cung cấp cho bạn một cảnh báo mà nói như thế này. "Chúng tôi khuyên bạn nên sử dụng tốc độ thu thập dữ liệu trang web mặc định của Yahoo. Chỉ khi trang web của bạn gặp sự cố với thu thập thông tin của chúng tôi thì hãy sử dụng công cụ này để điều chỉnh trang web. Để duy trì thu thập thông tin trang web của bạn một cách bình thường điều kiện trang web và do đó không thể đảm bảo điều chỉnh theo yêu cầu của bạn. "

— người dùng35703
nguồn

1

Tôi chắc chắn tôi không phải là người duy nhất đánh giá cao bản cập nhật về điều này - nó có tôn trọng yêu cầu không? Bạn có thể khuyên bạn nên tạo một tài khoản?

— thống lazysound

Chỉ cần cập nhật URL trực tiếp lên trang điều chỉnh tần số thu thập thông tin, vì giờ đây nó đã bị chôn sâu hơn trong Công cụ quản trị trang web (không còn trong menu nữa). Google dịch làm cho nó rất khó tìm do các bản dịch khó hiểu ;-)

— odony

-1

Có, bạn có thể sử dụng Crawl-delaytham số trong tệp robots.txt để đặt thành số giây để chờ giữa các yêu cầu liên tiếp đến cùng một máy chủ.

User-agent: Baiduspider
Crawl-delay: 100

Dòng đầu tiên chỉ nói với trình thu thập thông tin của Web Web để tôn vinh lệnh. Dòng thứ 2 là thời gian chờ trong vài giây giữa các yêu cầu đến máy chủ. Bạn có thể thêm những gì bạn muốn trì hoãn thời gian cho nhu cầu của bạn.

Bạn sẽ cần thêm các lệnh này vào tệp robot.txt hiện có của mình . Nếu bạn chưa có tệp robot.txt , hãy thêm mã ở trên vào tệp văn bản, lưu tệp dưới dạng tệp robots.txt và tải lên thư mục gốc của trang web của bạn để nó xuất hiện tại địa chỉ bên dưới:

www.examplesite.com/robots.txt

— Tối đa
nguồn

2

Baiduspider không hỗ trợ Thu thập thông tin. Xem tại đây .

— samthebrand

Rất tiếc, đã thấy nó trong một vài trang web tệp tin robots.txt vì vậy giả sử nó đã làm! Làm thế nào mà nói đi?!

— Tối đa