TypeError: không thể sử dụng mẫu chuỗi trên đối tượng giống byte trong re.findall ()

106

Tôi đang cố gắng tìm hiểu cách tự động tìm nạp url từ một trang. Trong đoạn mã sau, tôi đang cố gắng lấy tiêu đề của trang web:

import urllib.request
import re

url = "http://www.google.com"
regex = r'<title>(,+?)</title>'
pattern  = re.compile(regex)

with urllib.request.urlopen(url) as response:
   html = response.read()

title = re.findall(pattern, html)
print(title)

Và tôi gặp lỗi không mong muốn này:

Traceback (most recent call last):
  File "path\to\file\Crawler.py", line 11, in <module>
    title = re.findall(pattern, html)
  File "C:\Python33\lib\re.py", line 201, in findall
    return _compile(pattern, flags).findall(string)
TypeError: can't use a string pattern on a bytes-like object

Tôi đang làm gì sai?

python python-3.x web-crawler

— Inspired_Blue
nguồn

1

bản sao có thể xảy ra của Chuyển đổi byte thành chuỗi Python

— gnat

160

Bạn muốn chuyển đổi html (một đối tượng byte-loại tương tự) thành một chuỗi sử dụng .decode, ví dụ html = response.read().decode('utf-8').

Xem Chuyển đổi byte thành chuỗi Python

— đá
nguồn

28

Vấn đề là regex của bạn là một chuỗi, nhưng htmllà byte :

>>> type(html)
<class 'bytes'>

Vì python không biết các byte đó được mã hóa như thế nào, nó sẽ ném ra một ngoại lệ khi bạn cố gắng sử dụng chuỗi regex trên chúng.

Bạn có thể chuyển decodecác byte thành một chuỗi:

html = html.decode('ISO-8859-1')  # encoding may vary!
title = re.findall(pattern, html)  # no more error

Hoặc sử dụng byte regex:

regex = rb'<title>(,+?)</title>'
#        ^

Trong ngữ cảnh cụ thể này, bạn có thể lấy mã hóa từ các tiêu đề phản hồi:

with urllib.request.urlopen(url) as response:
    encoding = response.info().get_param('charset', 'utf8')
    html = response.read().decode(encoding)

Xem urlopentài liệu để biết thêm chi tiết.

— Aran-Fey
nguồn