file
nói với bạn văn bản của Non-ISO mở rộng-ASCII vì nó phát hiện ra rằng đây là:
- rất có thể là một tập tin văn bản của người Viking từ việc thiếu các ký tự điều khiển (giá trị byte 0 mộc31) ngoài các ngắt dòng;
- Phần mở rộng của ASC-ASCII vì có các ký tự nằm ngoài phạm vi ASCII (giá trị byte ≥128);
- Không phải ISO ISO vì có các ký tự trong phạm vi 128.100159 ( ISO 8859 dành phạm vi này cho các ký tự điều khiển).
Bạn phải tìm ra mã hóa mà tập tin này dường như đang ở. Bạn có thể thử nhận dạng tự động của Enca . Bạn có thể cần phải đẩy nó đi đúng hướng bằng cách nói với ngôn ngữ của văn bản.
enca x.txt
enca -L polish x.txt
Để chuyển đổi tập tin, vượt qua -x
tùy chọn:enca -L polish x.txt -x utf8 >x.utf8.txt
Nếu bạn không thể hoặc không muốn sử dụng Enca, bạn có thể đoán mã hóa theo cách thủ công. Một chút nhìn xung quanh nói với tôi rằng đây là văn bản tiếng Ba Lan và các từ là trwały, stały, usuważ, vì vậy chúng tôi đang tìm một bản dịch trong đó ³
→ ł
và æ
→ ż
. Điều này trông giống như latin-2 hoặc latin-10 hoặc nhiều khả năng (được đưa ra là không phải ISO ISO CP1250 mà bạn đang xem là latin1 . Để chuyển đổi tệp thành UTF-8, bạn có thể sử dụng recode hoặc iconv .
recode CP1250..utf8 <x.txt >x.utf8.txt
iconv -f CP1250 -t UTF-8 <x.txt >x.utf8.txt