Dựa trên những nhận xét tôi đã nhận được, tôi đã xem xét thêm một chút. Có vẻ như hiện tại cách tốt nhất là từ bỏ sử dụng các thực thể HTML và sử dụng ký tự UTF-8 thực tế thay thế . Những lý do được liệt kê như sau:
- Mã hóa UTF-8 dễ đọc và chỉnh sửa hơn cho những người hiểu ý nghĩa của ký tự và biết cách nhập nó.
- Mã hóa UTF-8 cũng khó hiểu như mã hóa thực thể HTML cho những người không hiểu chúng, nhưng chúng có lợi thế là hiển thị dưới dạng các ký tự đặc biệt thay vì khó hiểu mã hóa thập phân hoặc thập lục phân.
Miễn là mã hóa trang của bạn được đặt đúng thành UTF-8, bạn nên sử dụng ký tự thực tế thay vì thực thể HTML. Tôi đã đọc một số tài liệu về chủ đề này, nhưng hữu ích nhất là:
Từ UTF-8: Bài viết về bí mật mã hóa nhân vật :
Wikipedia là một trường hợp nghiên cứu tuyệt vời cho một ứng dụng ban đầu sử dụng ISO-8859-1 nhưng đã chuyển sang UTF-8 khi nó trở nên quá cồng kềnh để hỗ trợ ngoại ngữ. Bots giờ đây sẽ thực sự đi qua các bài báo và chuyển đổi các thực thể nhân vật thành các nhân vật thực tương ứng của họ vì mục đích thân thiện với người dùng và tìm kiếm .
Bài báo đó cũng đưa ra một ví dụ hay liên quan đến mã hóa Trung Quốc. Dưới đây là ví dụ viết tắt cho sự lười biếng:
UTF-8:
這兩個字是甚麼意思
Các thực thể HTML :
這兩個字是甚麼意思
Các mã hóa thực thể UTF-8 và HTML đều vô nghĩa đối với tôi, nhưng ít nhất mã hóa UTF-8 có thể được nhận dạng như một ngôn ngữ nước ngoài và nó sẽ hiển thị đúng trong hộp chỉnh sửa. Bài viết tiếp tục nói như sau về phiên bản được mã hóa thực thể HTML:
Vô cùng bất tiện cho những người trong chúng ta thực sự biết các thực thể nhân vật là gì, hoàn toàn không thể hiểu được đối với những người dùng nghèo không! Ngay cả các thực thể nhân vật "dễ hiểu", thân thiện với người dùng hơn một chút như & theta; sẽ khiến những người dùng không quan tâm đến việc học HTML gãi đầu. Mặt khác, nếu họ thấy trong hộp chỉnh sửa, họ sẽ biết rằng đó là một nhân vật đặc biệt và đối xử với nó phù hợp, ngay cả khi họ không biết cách tự viết nhân vật đó.
Như những người khác đã lưu ý, bạn vẫn phải sử dụng các thực thể HTML cho các ký tự XML dành riêng (ký hiệu, ít hơn, lớn hơn).