Câu hỏi được gắn thẻ «web-scraping»

Lọc web là quá trình trích xuất thông tin cụ thể từ các trang web không dễ dàng cung cấp API hoặc các phương pháp truy xuất dữ liệu tự động khác. Các câu hỏi về "Cách Bắt đầu Với Scraping" (ví dụ với Excel VBA) nên được * nghiên cứu kỹ lưỡng * vì có nhiều mẫu mã chức năng. Phương pháp thu thập dữ liệu web bao gồm các ứng dụng của bên thứ 3, phát triển phần mềm tùy chỉnh hoặc thậm chí thu thập dữ liệu thủ công theo cách chuẩn hóa.


16
Cách tìm các phần tử theo lớp
Tôi gặp sự cố khi phân tích các phần tử HTML bằng thuộc tính "class" bằng Beautifulsoup. Mã trông như thế này soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Tôi gặp lỗi trên cùng một dòng "sau khi" tập lệnh kết …




13
Làm cách nào để chọn giá trị menu thả xuống với Selenium bằng Python?
Tôi cần chọn một yếu tố từ menu thả xuống . Ví dụ: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Đầu tiên tôi phải bấm vào nó. Tôi làm việc này: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) Sau đó tôi phải chọn yếu tố tốt, …

14
Trang JavaScript quét web bằng Python
Tôi đang cố gắng phát triển một trình quét web đơn giản. Tôi muốn trích xuất văn bản mà không cần mã HTML. Trên thực tế, tôi đã đạt được mục tiêu này, nhưng tôi đã thấy rằng trong một số trang tải JavaScript, tôi đã không thu được kết …




7
Puppeteer: biến biến trong .evalu ()
Tôi đang cố gắng chuyển một biến vào một page.evaluate()hàm trong Puppeteer , nhưng khi tôi sử dụng ví dụ rất đơn giản sau đây, biến đó evalVarkhông được xác định. Tôi mới sử dụng Puppeteer và không thể tìm thấy bất kỳ ví dụ nào để xây dựng, vì …


17
Scraping: Lỗi SSL: CERTIFICATE_VERIFY_FAILED cho http://en.wikipedia.org
Tôi đang thực hành mã từ 'Web Scraping với Python' và tôi tiếp tục gặp sự cố chứng chỉ này: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' …



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.