Tiêu chuẩn unicode có đủ điểm mã mà bạn cần 4 byte để lưu trữ tất cả. Đó là những gì mã hóa UTF-32 làm. Tuy nhiên, mã hóa UTF-8 bằng cách nào đó ép chúng vào những không gian nhỏ hơn nhiều bằng cách sử dụng một thứ gọi là "mã hóa chiều rộng thay đổi".
Trên thực tế, nó quản lý để đại diện cho 127 ký tự đầu tiên của US-ASCII chỉ trong một byte trông giống hệt như ASCII thực, vì vậy bạn có thể diễn giải nhiều văn bản ascii như thể nó là UTF-8 mà không cần làm gì với nó. Trò hay. Vì vậy, làm thế nào nó hoạt động?
Tôi sẽ hỏi và trả lời câu hỏi của chính mình ở đây bởi vì tôi chỉ đọc một chút để tìm ra nó và tôi nghĩ rằng nó có thể cứu ai đó một thời gian. Thêm vào đó, có thể ai đó có thể sửa cho tôi nếu tôi có một số sai.