Quản trị trang web web-crawlers

4

Tôi thấy rằng Google có một đề xuất / tiêu chuẩn tốt để làm cho các ứng dụng Ajax có thể thu thập dữ liệu, thông qua #! (băm bang). http://googlewebmastercentral.blogspot.com/2009/10/proposed-for-making-ajax-crawlable.html Câu hỏi của tôi là: Có phải họ hiện đang sử dụng "đề xuất" này trong thế giới thực? …

12 seo google ajax web-crawlers

4

Google không thu thập dữ liệu tệp CDN

Tôi đã nhận thấy rằng Google Webmaster Tools đang báo cáo rất nhiều tài nguyên bị chặn trong trang web của tôi. Ngay bây giờ tất cả "tài nguyên bị chặn" là .css, .js và hình ảnh (.jpg, .png) mà tôi phục vụ từ Cloudfront CDN. Tôi đã dành rất …

11 google-search-console web-crawlers googlebot cdn amazon-cloudfront

2

Những bot nào thực sự đáng để cho vào một trang web?

Đã viết một số bot và thấy số lượng lớn các bot ngẫu nhiên xảy ra để thu thập dữ liệu một trang web, tôi tự hỏi là một quản trị trang web, những bot nào thực sự đáng để cho vào một trang web? Suy nghĩ đầu tiên của …

11 seo web-crawlers robots.txt googlebot bingbot

2

Công cụ quản trị trang web của Google cho tôi biết rằng robot đang chặn quyền truy cập vào sơ đồ trang web

Đây là robot.txt của tôi : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Nhưng Google Webmaster Tools cho tôi biết rằng robot đang chặn quyền truy cập vào sơ đồ trang web: Chúng tôi đã gặp lỗi khi cố gắng truy cập Sơ đồ trang web của bạn. Vui …

11 google-search-console robots.txt web-crawlers

4

Adsense click bot đang nhấp vào trang web của tôi

Tôi có một trang web nhận được khoảng 7.000 - 10.000 lượt xem trang mỗi ngày ngay bây giờ. Bắt đầu khoảng 1 giờ sáng ngày 7/1/12 tôi nhận thấy TLB đang tăng mạnh. Những nhấp chuột này sẽ được ghi có sau đó được ghi có ngay sau đó. …

11 google-adsense advertising web-crawlers botattack

6

Cách tốt nhất để loại trừ bot khỏi số lượt xem là gì?

Trang web của tôi đang đếm lượt xem của khách trên một số trang. Tôi nhận thấy rằng Google và các Bots khác đang "nhấp chuột" vào trang web của tôi như điên và một số trang có số lượt xem không thực tế (so với các trang do con …

11 php mysql web-crawlers best-practices

4

Các tệp robot.txt và sitemap.xml có thể động thông qua chuyển hướng .htaccess không?

Tôi có một trang web đa ngôn ngữ và đa ngôn ngữ. Nó chạy qua một cài đặt CMS duy nhất (Drupal), vì vậy tôi có một thư mục gốc duy nhất. Vì vậy, nếu tôi có một tệp robots.txt tĩnh, ở đó tôi chỉ có thể hiển thị các …

11 htaccess redirects sitemap web-crawlers

1

Googlebot gửi hàng ngàn yêu cầu đến công cụ định vị bản đồ của chúng tôi và sử dụng hết hạn ngạch API

Chúng tôi có một trang định vị cửa hàng trên trang web của khách hàng của chúng tôi. Người dùng cuối nhập mã bưu điện của họ và bán kính tìm kiếm và chúng tôi hiển thị kết quả trên Google Map. Gần đây, chúng tôi đã bắt đầu nhận …

10 web-crawlers google-maps

1

Làm thế nào để No Noexex: xông trong robot.txt hoạt động như thế nào?

Tôi đã chạy qua bài viết này trong tin tức SEO của tôi ngày hôm nay. Dường như điều đó ngụ ý rằng bạn có thể sử dụng các Noindex:chỉ thị bên cạnh các Disallow:chỉ thị tiêu chuẩn trong tệp robots.txt . Disallow: /page-one.html Noindex: /page-two.html Có vẻ như nó …

10 web-crawlers robots.txt googlebot noindex

2

Chỉ cho phép các bot Google và Bing thu thập dữ liệu trang web

Tôi đang sử dụng tệp robot.txt sau đây cho một trang web: Mục tiêu là cho phép googlebot và bingbot truy cập trang web ngoại trừ trang /bedven/bedrijf/*và chặn tất cả các bot khác thu thập dữ liệu trang web. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* …

10 web-crawlers robots.txt

1

Kết hợp các tác nhân người dùng trong robot.txt

Các tác nhân người dùng có thể được liệt kê cùng nhau, theo sau là các quy tắc chung của họ như vậy trong tệp robots.txt không? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

2

Dấu cộng trước URL trong tác nhân người dùng

Tôi chạy một trình thu thập dữ liệu web nhỏ và phải quyết định sử dụng tác nhân người dùng nào cho nó. Danh sách các tác nhân trình thu thập thông tin cũng như Wikipedia đề xuất định dạng sau: examplebot/1.2 (+http://www.example.com/bot.html) Tuy nhiên, một số bot bỏ qua …

10 web-crawlers http user-agent

1

Google đã thu thập dữ liệu 403 trang của tôi như thế nào?

Tôi đã có một vài tập tin riêng tư trong một thư mục trong thư mục trường học của tôi. Bạn có thể thấy rằng các tệp tồn tại bằng cách truy cập myschool.edu/myusername/myfolder, nhưng cố gắng truy cập các tệp qua myschool.edu/myusername/myfolder/myfile.html trả về lỗi 403. Nhưng Google bằng …

10 web-crawlers security googlebot

6

Làm thế nào để (dis) cho phép bot archive.org? Có phải mọi thứ thay đổi, nếu vậy khi nào?

Tôi có một trang web mà tôi hầu như không muốn được lập chỉ mục bởi các công cụ tìm kiếm, nhưng tôi muốn giữ nó vĩnh viễn trên archive.org. Vì vậy, tôi robots.txtbắt đầu với điều này: User-agent: * Disallow: / Hôm nay, theo archive.org tôi phải thêm vào …

10 web-crawlers robots.txt internet-archive

2

Chúng ta có nên bỏ sơ đồ thu thập dữ liệu AJAX không?

Vì vậy, bây giờ Google đã phản đối chương trình thu thập dữ liệu AJAX . Họ nói không nên bận tâm triển khai nó trong các trang web mới, bởi vì nó không còn cần thiết nữa vì Googlebot hiện không có vấn đề gì khi xem nội dung …

9 seo web-crawlers googlebot ajax

Câu hỏi được gắn thẻ «web-crawlers»