Có nhiều tệp văn bản đơn giản được mã hóa trong các bảng mã biến thể.
Tôi muốn chuyển đổi tất cả chúng thành UTF-8, nhưng trước khi chạy iconv, tôi cần biết mã hóa ban đầu của nó. Hầu hết các trình duyệt đều có Auto Detect
tùy chọn mã hóa, tuy nhiên, tôi không thể kiểm tra từng tệp văn bản đó vì có quá nhiều.
Chỉ khi biết mã hóa ban đầu, sau đó tôi có thể chuyển đổi các văn bản bằng cách iconv -f DETECTED_CHARSET -t utf-8
.
Có tiện ích nào để phát hiện mã hóa các tệp văn bản thuần túy không? Nó không phải hoàn hảo 100%, tôi không phiền nếu có 100 tệp bị chuyển nhầm thành 1.000.000 tệp.
python-chardet
trong repo vũ trụ Ubuntu.