Tôi hiện đang sử dụng Beautiful Soup để phân tích một tệp HTML và gọi get_text()
, nhưng có vẻ như tôi bị bỏ lại rất nhiều khoảng trống đại diện cho Unicode. Có cách nào hiệu quả để loại bỏ tất cả chúng trong Python 2.7 và thay đổi chúng thành không gian không? Tôi đoán câu hỏi khái quát hơn sẽ là, có cách nào để xóa định dạng Unicode không?
Tôi đã thử sử dụng : line = line.replace(u'\xa0',' ')
, như được đề xuất bởi một chủ đề khác, nhưng điều đó đã thay đổi \ xa0 thành u, vì vậy bây giờ tôi có "u" ở khắp mọi nơi thay thế. ):
EDIT: Vấn đề dường như được giải quyết bằng str.replace(u'\xa0', ' ').encode('utf-8')
, nhưng chỉ làm .encode('utf-8')
mà không làm replace()
cho nó phát ra ngay cả các ký tự kỳ lạ, ví dụ như \ xc2. Bất cứ ai có thể giải thích điều này?
u''
s thay vì ''
s. :-)
u' '
thay thế, không phải ' '
. Là chuỗi gốc là unicode?