Lập trình beautifulsoup

28

UnicodeEncodeError: 'ascii' codec không thể mã hóa ký tự u '\ xa0' ở vị trí 20: thứ tự không nằm trong phạm vi (128)

Tôi đang gặp vấn đề với việc xử lý các ký tự unicode từ văn bản được tải từ các trang web khác nhau (trên các trang web khác nhau). Tôi đang sử dụng BeautifulSoup. Vấn đề là lỗi không phải lúc nào cũng có thể lặp lại; đôi khi …

1297 python unicode beautifulsoup python-2.x python-unicode

16

Cách tìm các phần tử theo lớp

Tôi gặp sự cố khi phân tích các phần tử HTML bằng thuộc tính "class" bằng Beautifulsoup. Mã trông như thế này soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Tôi gặp lỗi trên cùng một dòng "sau khi" tập lệnh kết …

386 python html web-scraping beautifulsoup

12

bs4.FeatureNotFound: Không thể tìm thấy trình tạo cây với các tính năng bạn yêu cầu: lxml. Bạn có cần cài đặt một thư viện phân tích cú pháp?

... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Các đầu ra trên trên Terminal của tôi. Tôi đang dùng Mac OS 10.7.x. Tôi có Python …

224 python python-2.7 beautifulsoup lxml

6

UnicodeEncodeError: codec 'charmap' không thể mã hóa các ký tự

Tôi đang cố gắng để cạo một trang web, nhưng nó gây ra lỗi cho tôi. Tôi đang sử dụng mã sau đây: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) Và tôi đang nhận được lỗi sau: File "C:\Python34\lib\encodings\cp1252.py", line 19, …

205 python beautifulsoup urllib

5

TypeError: bắt buộc phải có một đối tượng giống byte, không phải là 'str' trong python và CSV

TypeError: bắt buộc phải có một đối tượng giống byte, không phải là 'str' gặp lỗi trên trong khi Thực hiện bên dưới mã python để lưu dữ liệu bảng HTML trong tệp Csv. không biết làm thế nào để có được Rideup. Xin hãy giúp tôi. import csv import …

173 csv python-3.x beautifulsoup html-table

11

Đẹp Soup và trích xuất một div và nội dung của nó bằng ID

soup.find("tagName", { "id" : "articlebody" }) Tại sao điều này KHÔNG trả lại các <div id="articlebody"> ... </div>thẻ và công cụ ở giữa? Nó không trả lại gì cả. Và tôi biết thực tế nó tồn tại bởi vì tôi đang nhìn chằm chằm vào nó từ soup.prettify() soup.find("div", { …

147 python beautifulsoup

16

lấy liên kết từ trang web bằng python và BeautifulSoup

Làm cách nào tôi có thể truy xuất các liên kết của trang web và sao chép địa chỉ url của các liên kết bằng Python?

141 python web-scraping hyperlink beautifulsoup

15

ImportError: Không có Module nào được đặt tên bs4 (BeautifulSoup)

Tôi đang làm việc với Python và sử dụng Flask. Khi tôi chạy tệp Python chính trên máy tính của mình, nó hoạt động hoàn hảo, nhưng khi tôi kích hoạt venv và chạy tệp Flask Python trong thiết bị đầu cuối, nó nói rằng tệp Python chính của tôi …

139 python beautifulsoup flask importerror

8

Sự khác biệt giữa trình thu thập dữ liệu BeautifulSoup và Scrapy?

Tôi muốn làm một trang web hiển thị so sánh giữa giá sản phẩm amazon và e-bay. Cái nào trong số này sẽ hoạt động tốt hơn và tại sao? Tôi có phần quen thuộc với BeautifulSoup nhưng không quá nhiều với trình thu thập dữ liệu Scrapy .

134 python beautifulsoup scrapy web-crawler

10

Văn bản trang web hiển thị của BeautifulSoup Grab

Về cơ bản, tôi muốn sử dụng BeautifulSoup để lấy đúng văn bản hiển thị trên trang web. Ví dụ, trang web này là trường hợp thử nghiệm của tôi. Và tôi chủ yếu muốn chỉ lấy phần nội dung (bài báo) và thậm chí có thể là một vài …

124 python text beautifulsoup html-content-extraction

6

Cách tìm con của các nút bằng BeautifulSoup

Tôi muốn nhận tất cả các <a>thẻ là con của <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Tôi biết cách tìm phần tử với lớp cụ thể như thế này: soup.find("li", { "class" : "test" }) Nhưng tôi không biết làm thế nào để tìm …

115 python html beautifulsoup

17

Scraping: Lỗi SSL: CERTIFICATE_VERIFY_FAILED cho http://en.wikipedia.org

Tôi đang thực hành mã từ 'Web Scraping với Python' và tôi tiếp tục gặp sự cố chứng chỉ này: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' …

113 python web-scraping beautifulsoup scrapy ssl-certificate

6

Trích xuất một giá trị thuộc tính với beautifulsoup

Tôi đang cố gắng trích xuất nội dung của một thuộc tính "giá trị" trong thẻ "đầu vào" cụ thể trên một trang web. Tôi sử dụng mã sau: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) …

110 python parsing attributes beautifulsoup

9

chúng ta có thể sử dụng xpath với BeautifulSoup không?

Tôi đang sử dụng BeautifulSoup để quét url và tôi có mã sau import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Bây giờ trong đoạn mã trên, chúng ta có thể sử dụng findAllđể …

105 python xpath beautifulsoup urllib

7

Python: BeautifulSoup - nhận một giá trị thuộc tính dựa trên thuộc tính tên

Tôi muốn in một giá trị thuộc tính dựa trên tên của nó, lấy ví dụ <META NAME="City" content="Austin"> Tôi muốn làm một cái gì đó như thế này soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print …

96 python beautifulsoup

Câu hỏi được gắn thẻ «beautifulsoup»