Tôi có một chuỗi trông giống như vậy:
6Â 918Â 417Â 712
Cách rõ ràng để cắt chuỗi này (theo tôi hiểu về Python) chỉ đơn giản là nói chuỗi nằm trong một biến được gọi là s
, chúng ta nhận được:
s.replace('Â ', '')
Điều đó sẽ làm các trick. Nhưng tất nhiên nó phàn nàn rằng ký tự không phải ASCII '\xc2'
trong tệp blabla.py không được mã hóa.
Tôi chưa bao giờ hoàn toàn có thể hiểu được cách chuyển đổi giữa các bảng mã khác nhau.
Đây là mã, nó thực sự giống như ở trên, nhưng bây giờ là trong ngữ cảnh. Tệp được lưu dưới dạng UTF-8 trong notepad và có tiêu đề sau:
#!/usr/bin/python2.4
# -*- coding: utf-8 -*-
Mật mã:
f = urllib.urlopen(url)
soup = BeautifulSoup(f)
s = soup.find('div', {'id':'main_count'})
#making a print 's' here goes well. it shows 6Â 918Â 417Â 712
s.replace('Â ','')
save_main_count(s)
Nó không xa hơn s.replace
...
u