Tôi đang truy xuất dữ liệu Twitter bằng công cụ Python và kết xuất chúng ở định dạng JSON vào đĩa của mình. Tôi nhận thấy một sự thoát ra ngoài ý muốn của toàn bộ chuỗi dữ liệu cho một tweet được đặt trong dấu ngoặc kép. Hơn nữa, tất cả các dấu ngoặc kép của định dạng JSON thực tế đều được thoát bằng dấu gạch chéo ngược.
Chúng trông như thế này:
"{\" create_at \ ": \" T6, ngày 8 tháng 8 11:04:40 +0000 2014 \ ", \" id \ ": 497699913925292032,
Làm thế nào để tôi tránh điều đó? Nó phải là:
{"create_at": "Thứ sáu, ngày 8 tháng 8 11:04:40 +0000 năm 2014" .....
Mã xuất tệp của tôi trông giống như sau:
with io.open('data'+self.timestamp+'.txt', 'a', encoding='utf-8') as f:
f.write(unicode(json.dumps(data, ensure_ascii=False)))
f.write(unicode('\n'))
Việc thoát ngoài ý muốn gây ra sự cố khi đọc trong tệp JSON ở bước xử lý sau.