Câu hỏi được gắn thẻ «web-crawler»

Trình thu thập thông tin web (còn được gọi là Trình thu thập thông tin mạng) là một chương trình máy tính duyệt qua World Wide Web một cách có phương pháp, tự động hoặc theo cách có trật tự. Các thuật ngữ khác dành cho trình thu thập dữ liệu Web là kiến, trình lập chỉ mục tự động, bot, trình thu thập dữ liệu web, rô bốt web hoặc - đặc biệt là trong cộng đồng FOAF - trình duyệt web.







11
Phát hiện trình thu thập thông tin web 'tàng hình'
Có những tùy chọn nào để phát hiện trình thu thập thông tin web không muốn bị phát hiện? (Tôi biết rằng các kỹ thuật phát hiện danh sách sẽ cho phép lập trình viên thu thập thông tin tàng hình thông minh tạo ra một con nhện tốt hơn, …
107 web-crawler 

2
TypeError: không thể sử dụng mẫu chuỗi trên đối tượng giống byte trong re.findall ()
Tôi đang cố gắng tìm hiểu cách tự động tìm nạp url từ một trang. Trong đoạn mã sau, tôi đang cố gắng lấy tiêu đề của trang web: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title …



8
Nhận danh sách các URL từ một trang web [đã đóng]
Đã đóng cửa. Câu hỏi này không đáp ứng các nguyên tắc về Stack Overflow . Nó hiện không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Cập nhật câu hỏi để nó đúng chủ đề cho Stack Overflow. Đã đóng cửa 4 năm trước . …


10
Ẩn Địa chỉ Email khỏi Bots - Giữ mailto:
tl; dr Ẩn địa chỉ email khỏi bot mà không cần sử dụng tập lệnh và duy trì mailto:chức năng. Phương pháp cũng phải hỗ trợ trình đọc màn hình. Tóm lược Làm xáo trộn email mà không cần sử dụng tập lệnh hoặc biểu mẫu liên hệ Địa chỉ …
81 html  css  web-crawler  mailto 
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.