UTF-8 không phải là bộ ký tự, chỉ là mã hóa cho Unicode. 128 ký tự đầu tiên giống như ASCII nhưng khác nhau ở 128 byte cao. Một byte với tập bit cao (hoặc> = 0x80) là một ký tự mở rộng trong ASCII trong khi ở UTF-8, nó chỉ ra byte bắt đầu của chuỗi nhiều byte. Đó là trường hợp 0x93 hoặc 0x94 ở trên. Tuy nhiên, tôi không thấy bất cứ điều gì lạ trong tập tin. Đó là những trích dẫn hoặc trích dẫn thông minh với các hình thức khác nhau để mở và đóng dấu ngoặc kép, mà bạn thường thấy khi sử dụng trình soạn thảo văn bản phong phú như MS Word
Chỉnh sửa
Câu hỏi đã được chỉnh sửa. Tôi nghĩ đó là vì bạn đã chọn sai công cụ. Các encode
mục menu là để thay đổi mã hóa nếu bạn hiển thị sai ký tự. Nó chỉ xử lý chuỗi byte tương tự được đọc từ đĩa như một mã hóa khác. Vì ASCII và UTF-8 khác nhau, bạn sẽ có chuỗi byte UTF-8 không đúng và xem kết quả ở trên. Bạn cần chọn convert to UTF-8
nó để thay đổi toàn bộ byte đầu vào
Bạn cũng đã nhầm lẫn ANSI và ASCII. ANSI thường đề cập đến Windows-1252, là một bộ ký tự được sử dụng trong tiếng Anh Windows và một số ngôn ngữ Tây Âu. Đây là siêu bộ của ISO 8859-1, mặc dù ISO 8859-1 cũng có thể được gọi là ANSI. ISO 8859-1 cũng là 256 điểm mã đầu tiên của Unicode, do đó, nó là một tập hợp con của Unicode, nhưng nó không tương thích với mã hóa UTF-8. ASCII là một bộ ký tự 7 bit và là một tập hợp con của ANSI được mã hóa bởi 8 bit, nhưng đôi khi nó cũng được gọi là ANSI, mặc dù không chính xác lắm
https://en.wikipedia.org/wiki/ANSI_character_set
Nói chung, mối quan hệ giữa các bộ ký tự như sau
ASCII < ISO 8859-1 < Windows-1252
^
Unicode