Câu hỏi được gắn thẻ «web-crawlers»

Một chương trình máy tính truy cập các trang web cho các mục đích khác nhau (để cạo nội dung, để cung cấp cho các công cụ tìm kiếm thông tin về trang web của bạn, v.v.)

4
Trạng thái của Ajax thu thập dữ liệu?
Tôi thấy rằng Google có một đề xuất / tiêu chuẩn tốt để làm cho các ứng dụng Ajax có thể thu thập dữ liệu, thông qua #! (băm bang). http://googlewebmastercentral.blogspot.com/2009/10/proposed-for-making-ajax-crawlable.html Câu hỏi của tôi là: Có phải họ hiện đang sử dụng "đề xuất" này trong thế giới thực? …



2
Công cụ quản trị trang web của Google cho tôi biết rằng robot đang chặn quyền truy cập vào sơ đồ trang web
Đây là robot.txt của tôi : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Nhưng Google Webmaster Tools cho tôi biết rằng robot đang chặn quyền truy cập vào sơ đồ trang web: Chúng tôi đã gặp lỗi khi cố gắng truy cập Sơ đồ trang web của bạn. Vui …







1
Kết hợp các tác nhân người dùng trong robot.txt
Các tác nhân người dùng có thể được liệt kê cùng nhau, theo sau là các quy tắc chung của họ như vậy trong tệp robots.txt không? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

2
Dấu cộng trước URL trong tác nhân người dùng
Tôi chạy một trình thu thập dữ liệu web nhỏ và phải quyết định sử dụng tác nhân người dùng nào cho nó. Danh sách các tác nhân trình thu thập thông tin cũng như Wikipedia đề xuất định dạng sau: examplebot/1.2 (+http://www.example.com/bot.html) Tuy nhiên, một số bot bỏ qua …




Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.