Vì không có bất cứ điều gì khác phức tạp hơn, tôi muốn chia sẻ điều này vì nó đã giúp tôi.
Đây là những gì tôi đã sử dụng ban đầu:
import requests
import re
url = '/programming/10711116/strip-spaces-tabs-newlines-python' # noqa
headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url, headers=headers)
print("{}".format(r.content))
Kết quả không mong muốn:
b'<!DOCTYPE html>\r\n\r\n\r\n <html itemscope itemtype="http://schema.org/QAPage" class="html__responsive">\r\n\r\n <head>\r\n\r\n <title>string - Strip spaces/tabs/newlines - python - Stack Overflow</title>\r\n <link
Đây là những gì tôi đã thay đổi nó thành:
import requests
import re
url = '/programming/10711116/strip-spaces-tabs-newlines-python' # noqa
headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url, headers=headers)
regex = r'\s+'
print("CNT: {}".format(re.sub(regex, " ", r.content.decode('utf-8'))))
Kết quả như ý:
<!DOCTYPE html> <html itemscope itemtype="http://schema.org/QAPage" class="html__responsive"> <head> <title>string - Strip spaces/tabs/newlines - python - Stack Overflow</title>
Regex chính xác mà @MattH đã đề cập, là thứ phù hợp với tôi trong việc lắp nó vào mã của tôi. Cảm ơn!
Lưu ý: Đây là python3