Câu hỏi được gắn thẻ «web-crawlers»

Một chương trình máy tính truy cập các trang web cho các mục đích khác nhau (để cạo nội dung, để cung cấp cho các công cụ tìm kiếm thông tin về trang web của bạn, v.v.)

Di chuyển chủ đề Disqus. Gotchas?

Tôi đã di chuyển một trang web sang một tên miền mới. Bản thân trang web này khá đơn giản (nó sử dụng Jekyll) và mọi thứ đều ổn - ngoại trừ việc di chuyển các luồng Disqus. Tôi đã thành công một phần - một số chủ đề đã …

9 web-crawlers

Ask.com thu thập sơ đồ trang web xuống (cho tốt)?

Tôi đã sử dụng Ask.comnhư một trong những công cụ tìm kiếm để ping sơ đồ trang web của mình. Khi tôi truy cập ping sơ đồ trang web của mình ngày hôm nay để lập lại sơ đồ trang web của mình, trang web ( http://submissions.ask.com/ping ) nói rằng …

9 search-engines sitemap web-crawlers ping

Chiến thuật đối phó với robot hoạt động sai

Tôi có một trang web, vì lý do quy định, có thể không được lập chỉ mục hoặc tìm kiếm tự động. Điều này có nghĩa là chúng ta cần phải tránh xa tất cả các robot và ngăn không cho chúng làm hỏng trang web. Rõ ràng là chúng …

9 apache web-crawlers user-agent

Tôi có nên xuất bản tệp ads.txt trống cho một trang web không chạy bất kỳ quảng cáo nào không?

Tôi đã thấy một vài lỗi 404 khi ads.txt được yêu cầu trên một số trang web mà tôi quản lý. Tôi đoán câu trả lời có thể giống hệt với câu hỏi về tệp robot.txt trống hoặc hoàn toàn không có tệp nào (chỉ ngăn một số lỗi 404). …

8 web-crawlers advertising

Từ chối truy cập vào Archive.is

Tôi muốn từ chối archive.istruy cập vào trang web của tôi. (Tôi không muốn trang web này lưu trữ bộ nhớ cache của tôi mà không có sự đồng ý của tôi). Bạn có biết nếu nó có thể?

8 web-crawlers noarchive

Những thẻ meta meta nào được gắn thẻ ưu tiên?

Vợ tôi làm việc tại một trường trung học ở Đức. Gần đây tôi nhận thấy rằng rất khó để tìm thấy trang chủ của trường đó bằng Google. Tôi đã xem mã nguồn của trang và tôi tin rằng tôi đã tìm thấy lý do: Có hai <meta name="robots">thẻ; …

8 seo web-crawlers meta-robots

Có thể cho trình thu thập dữ liệu web để xem các trang tĩnh mà không theo liên kết đến chúng?

Nếu tôi tạo một trang tĩnh trên một tên miền (http://www.domain.com/page.html), trình thu thập thông tin vẫn có thể nhìn thấy nó nếu không có bất kỳ liên kết nào đến nó ở bất cứ đâu trên trang web?

8 web-crawlers

Trình thu thập dữ liệu Facebook không có tác nhân người dùng spam trang web của chúng tôi trong cuộc tấn công DoS có thể

Các trình thu thập thông tin đã đăng ký vào Facebook (ipv6 kết thúc bằng: face: b00c :: 1) đã đánh sập trang web của chúng tôi, chứng kiến 10 nghìn lượt truy cập chỉ trong 20 phút. Chúng tôi nhận thấy họ không có tác nhân người dùng trong …

8 web-crawlers facebook cdn cloudflare ddos

Googlebot gặp phải lỗi JavaScript do hiển thị các tệp HTML lỗi thời với các tệp JS mới hơn

Gần đây chúng tôi đã gặp phải một vấn đề trong đó chúng tôi đã thêm một biến JavaScript (ví dụ var GLOBAL_VAR = true;) vào trang HTML (ví dụ /Search/Index) và cập nhật tệp JS riêng (ví dụ /Scripts/search/index.js) để truy cập và sử dụng biến JS đó. Sau …

8 javascript web-crawlers googlebot

Do các công cụ tìm kiếm vẫn thu thập dữ liệu trang noindex

Các công cụ tìm kiếm có thu thập dữ liệu một trang có thuộc tính meta 'noindex' không? Lý do tôi hỏi là vì chúng tôi có nội dung gần trùng lặp do điều hướng theo khía cạnh và các trang được lọc đã tuyên bố 'noindex' và tôi tự …

7 seo web-crawlers duplicate-content noindex nofollow

Webcrawler của Google có tuân theo nhập HTML không?

Liệu googlebot - WebCrawler của Google - theo phía trình duyệt HTML nhập khẩu như sau? <link rel="import" href="header.html"> Tôi đang nghĩ đến việc lưu trữ nội dung web trên máy chủ web của mình để sử dụng chỉ thị này trong dự thảo W3C . Tuy nhiên, tôi lo …

7 web-crawlers html5

Tôi có nên không cho phép thu thập thông tin HTTP sau khi chuyển sang HTTPS không?

Tôi chỉ di chuyển trang web được lập chỉ mục tốt của mình từ HTTP sang HTTPS. Các bước kế hoạch: Tất cả các trang HTML chuẩn sẽ là HTTPS ngay bây giờ Tất cả các trang HTTP sẽ chuyển hướng 301 đến HTTPS với cùng một URL Tất cả …

7 seo 301-redirect https web-crawlers migration

Cách xác định xem địa chỉ IP có thực sự là IP của google không

Từ những gì tôi học được trong nhật ký máy chủ của mình, địa chỉ IP bắt đầu bằng 64.249 thuộc về google. Khi tôi thực hiện tra cứu máy chủ trên máy tính của mình cho google, tôi nhận được 11 địa chỉ IP khác nhau bắt đầu từ …

7 google web-crawlers ip-address

Google bot sẽ đợi bao lâu sau khi tài liệu sẵn sàng trước khi chụp ảnh trang web?

Vì google bot cho phép JS thực hiện công việc của nó trên trang trong khi thu thập thông tin, phải đợi bao lâu để javascript thực thi sau khi tài liệu sẵn sàng? Giả sử tôi có phản hồi AJAX mất nhiều thời gian hơn bình thường, làm thế …

7 seo javascript web-crawlers googlebot

Google có phạt các trang web vì hiển thị một menu khác cho thiết bị di động so với máy tính để bàn không?

Tôi thực sự lo lắng về một thiết kế tôi đã được trao bởi một nhà thiết kế. Nó thay đổi menu cho điện thoại di động và máy tính để bàn. Trên thiết bị di động, bạn chỉ có thể truy cập các danh mục chính, điều đó sẽ …

7 seo google web-crawlers responsive-webdesign navigation

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookie và Chính sách bảo mật của chúng tôi.

Licensed under cc by-sa 3.0 with attribution required.