Bảng mã Excel
Tôi thấy WINDOWS-1252
mã hóa là ít gây khó chịu nhất khi giao dịch với Excel. Vì về cơ bản bộ ký tự độc quyền của microsofts, người ta có thể cho rằng nó sẽ hoạt động trên cả Mac và phiên bản Windows của MS-Excel. Cả hai phiên bản ít nhất bao gồm một bộ chọn "Nguồn gốc tệp" hoặc "Mã hóa tệp" tương ứng để đọc chính xác dữ liệu.
Tùy thuộc vào hệ thống của bạn và các công cụ bạn sử dụng, mã hóa này cũng có thể được đặt tên CP1252
, ANSI
, Windows (ANSI)
, MS-ANSI
hay chỉ là Windows
, trong số các biến thể khác.
Mã hóa này là siêu ký tự của ISO-8859-1
(aka LATIN1
và những người khác), vì vậy bạn có thể dự phòng ISO-8859-1
nếu bạn không thể sử dụng WINDOWS-1252
vì một số lý do. Xin lưu ý rằng ISO-8859-1
thiếu một số ký tự WINDOWS-1252
như được hiển thị ở đây:
| Char | ANSI | Unicode | ANSI Hex | Unicode Hex | HTML entity | Unicode Name | Unicode Range |
| € | 128 | 8364 | 0x80 | U+20AC | € | euro sign | Currency Symbols |
| ‚ | 130 | 8218 | 0x82 | U+201A | ‚ | single low-9 quotation mark | General Punctuation |
| ƒ | 131 | 402 | 0x83 | U+0192 | ƒ | Latin small letter f with hook | Latin Extended-B |
| „ | 132 | 8222 | 0x84 | U+201E | „ | double low-9 quotation mark | General Punctuation |
| … | 133 | 8230 | 0x85 | U+2026 | … | horizontal ellipsis | General Punctuation |
| † | 134 | 8224 | 0x86 | U+2020 | † | dagger | General Punctuation |
| ‡ | 135 | 8225 | 0x87 | U+2021 | ‡ | double dagger | General Punctuation |
| ˆ | 136 | 710 | 0x88 | U+02C6 | ˆ | modifier letter circumflex accent | Spacing Modifier Letters |
| ‰ | 137 | 8240 | 0x89 | U+2030 | ‰ | per mille sign | General Punctuation |
| Š | 138 | 352 | 0x8A | U+0160 | Š | Latin capital letter S with caron | Latin Extended-A |
| ‹ | 139 | 8249 | 0x8B | U+2039 | ‹ | single left-pointing angle quotation mark | General Punctuation |
| Œ | 140 | 338 | 0x8C | U+0152 | Œ | Latin capital ligature OE | Latin Extended-A |
| Ž | 142 | 381 | 0x8E | U+017D | | Latin capital letter Z with caron | Latin Extended-A |
| ‘ | 145 | 8216 | 0x91 | U+2018 | ‘ | left single quotation mark | General Punctuation |
| ’ | 146 | 8217 | 0x92 | U+2019 | ’ | right single quotation mark | General Punctuation |
| “ | 147 | 8220 | 0x93 | U+201C | “ | left double quotation mark | General Punctuation |
| ” | 148 | 8221 | 0x94 | U+201D | ” | right double quotation mark | General Punctuation |
| • | 149 | 8226 | 0x95 | U+2022 | • | bullet | General Punctuation |
| – | 150 | 8211 | 0x96 | U+2013 | – | en dash | General Punctuation |
| — | 151 | 8212 | 0x97 | U+2014 | — | em dash | General Punctuation |
| ˜ | 152 | 732 | 0x98 | U+02DC | ˜ | small tilde | Spacing Modifier Letters |
| ™ | 153 | 8482 | 0x99 | U+2122 | ™ | trade mark sign | Letterlike Symbols |
| š | 154 | 353 | 0x9A | U+0161 | š | Latin small letter s with caron | Latin Extended-A |
| › | 155 | 8250 | 0x9B | U+203A | › | single right-pointing angle quotation mark | General Punctuation |
| œ | 156 | 339 | 0x9C | U+0153 | œ | Latin small ligature oe | Latin Extended-A |
| ž | 158 | 382 | 0x9E | U+017E | | Latin small letter z with caron | Latin Extended-A |
| Ÿ | 159 | 376 | 0x9F | U+0178 | Ÿ | Latin capital letter Y with diaeresis | Latin Extended-A |
Lưu ý rằng dấu hiệu đồng euro bị thiếu . Bảng này có thể được tìm thấy tại Alan Wood .
Chuyển đổi
Chuyển đổi được thực hiện khác nhau trong mọi công cụ và ngôn ngữ. Tuy nhiên, giả sử bạn có một tệp query_result.csv
mà bạn biết được UTF-8
mã hóa. Chuyển đổi nó sang WINDOWS-1252
sử dụng iconv
:
iconv -f UTF-8 -t WINDOWS-1252 query_result.csv > query_result-win.csv