Tôi đang sử dụng BeautifulSoup và phân tích cú pháp một số HTML.
Tôi đang nhận một dữ liệu nhất định từ mỗi HTML (sử dụng vòng lặp for) và thêm dữ liệu đó vào một danh sách nhất định.
Vấn đề là, một số HTML có định dạng khác nhau (và chúng không có dữ liệu mà tôi muốn trong đó) .
Vì vậy, tôi đang cố gắng sử dụng xử lý ngoại lệ và thêm giá trị null
vào danh sách (tôi nên làm điều này vì chuỗi dữ liệu là quan trọng.)
Ví dụ, tôi có một mã như:
soup = BeautifulSoup(links)
dlist = soup.findAll('dd', 'title')
# I'm trying to find content between <dd class='title'> and </dd>
gotdata = dlist[1]
# and what i want is the 2nd content of those
newlist.append(gotdata)
# and I add that to a newlist
và một số liên kết không có bất kỳ liên kết nào <dd class='title'>
, vì vậy những gì tôi muốn làm là thêm chuỗi null
vào danh sách.
Lỗi xuất hiện:
list index out of range.
Những gì tôi đã thử là thêm một số dòng như thế này:
if not dlist[1]:
newlist.append('null')
continue
Nhưng nó không diễn ra. Nó vẫn hiển thị lỗi:
list index out of range.
Tôi nên làm gì với cái này? Tôi có nên sử dụng xử lý ngoại lệ không? hoặc có cách nào dễ dàng hơn không?
Bất kỳ đề xuất? Bất kỳ trợ giúp sẽ thực sự tuyệt vời!
None
rõ ràng là sạch hơn, OP muốn'null'
trong trường hợp này.