Câu hỏi được gắn thẻ «web-scraping»

Lọc web là quá trình trích xuất thông tin cụ thể từ các trang web không dễ dàng cung cấp API hoặc các phương pháp truy xuất dữ liệu tự động khác. Các câu hỏi về "Cách Bắt đầu Với Scraping" (ví dụ với Excel VBA) nên được * nghiên cứu kỹ lưỡng * vì có nhiều mẫu mã chức năng. Phương pháp thu thập dữ liệu web bao gồm các ứng dụng của bên thứ 3, phát triển phần mềm tùy chỉnh hoặc thậm chí thu thập dữ liệu thủ công theo cách chuẩn hóa.

8
Làm thế nào tôi có thể cạo nhanh hơn
Công việc ở đây là để cạo một API một trang web bắt đầu từ https://xxx.xxx.xxx/xxx/1.jsonđến https://xxx.xxx.xxx/xxx/1417749.jsonvà viết nó một cách chính xác để MongoDB. Cho rằng tôi có mã sau đây: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"] start_time = time.time() write_log = open("logging.log", "a") min = …




2
Làm thế nào tôi có thể làm web cạo ở Julia?
Tôi muốn trích xuất tên của các trường đại học và trang web của họ từ trang web này vào danh sách. Trong Python tôi đã làm điều đó với BeautifulSoup v4: import requests from bs4 import BeautifulSoup import pandas as pd page = requests.get('https://thebestschools.org/features/best-computer-science-programs-in-the-world/') content = BeautifulSoup(page.text, 'html.parser') college_name …

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.