Câu hỏi được gắn thẻ «beautifulsoup»

Beautiful Soup là một gói Python để phân tích cú pháp HTML / XML. Phiên bản mới nhất của gói này là phiên bản 4, được nhập dưới dạng bs4.

28
UnicodeEncodeError: 'ascii' codec không thể mã hóa ký tự u '\ xa0' ở vị trí 20: thứ tự không nằm trong phạm vi (128)
Tôi đang gặp vấn đề với việc xử lý các ký tự unicode từ văn bản được tải từ các trang web khác nhau (trên các trang web khác nhau). Tôi đang sử dụng BeautifulSoup. Vấn đề là lỗi không phải lúc nào cũng có thể lặp lại; đôi khi …

16
Cách tìm các phần tử theo lớp
Tôi gặp sự cố khi phân tích các phần tử HTML bằng thuộc tính "class" bằng Beautifulsoup. Mã trông như thế này soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Tôi gặp lỗi trên cùng một dòng "sau khi" tập lệnh kết …

12
bs4.FeatureNotFound: Không thể tìm thấy trình tạo cây với các tính năng bạn yêu cầu: lxml. Bạn có cần cài đặt một thư viện phân tích cú pháp?
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Các đầu ra trên trên Terminal của tôi. Tôi đang dùng Mac OS 10.7.x. Tôi có Python …

6
UnicodeEncodeError: codec 'charmap' không thể mã hóa các ký tự
Tôi đang cố gắng để cạo một trang web, nhưng nó gây ra lỗi cho tôi. Tôi đang sử dụng mã sau đây: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) Và tôi đang nhận được lỗi sau: File "C:\Python34\lib\encodings\cp1252.py", line 19, …







6
Cách tìm con của các nút bằng BeautifulSoup
Tôi muốn nhận tất cả các <a>thẻ là con của <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Tôi biết cách tìm phần tử với lớp cụ thể như thế này: soup.find("li", { "class" : "test" }) Nhưng tôi không biết làm thế nào để tìm …

17
Scraping: Lỗi SSL: CERTIFICATE_VERIFY_FAILED cho http://en.wikipedia.org
Tôi đang thực hành mã từ 'Web Scraping với Python' và tôi tiếp tục gặp sự cố chứng chỉ này: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' …

6
Trích xuất một giá trị thuộc tính với beautifulsoup
Tôi đang cố gắng trích xuất nội dung của một thuộc tính "giá trị" trong thẻ "đầu vào" cụ thể trên một trang web. Tôi sử dụng mã sau: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) …

9
chúng ta có thể sử dụng xpath với BeautifulSoup không?
Tôi đang sử dụng BeautifulSoup để quét url và tôi có mã sau import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Bây giờ trong đoạn mã trên, chúng ta có thể sử dụng findAllđể …


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.