Chung
Những ký tự này không dành cho văn bản bảng chữ cái Latinh thông thường mà dành cho ngữ âm, văn bản bảng chữ cái Cyrillic, để sử dụng làm ký hiệu toán học (đại diện cho các biến) hoặc tương tự. Cách duy nhất tuân thủ Unicode để mã hóa văn bản trong bảng chữ cái Latinh cơ bản là sử dụng các ký tự được sử dụng chủ yếu cho mục đích này (nghĩa là từ khối Unicode Latin cơ bản ).
Cũng như nhiều tiêu chuẩn khác, bạn nên suy nghĩ kỹ về việc vi phạm Unicode. Ngoài ra, Unicode bao gồm rất nhiều hệ thống chữ viết, trường hợp sử dụng và nội dung tồn tại để tương thích ngược với các tiêu chuẩn 1 khác , hiểu đầy đủ tất cả các động lực của nó là một khoa học của riêng nó. Câu chuyện dài, trừ khi bạn thực sự thực sự biết những gì bạn đang làm, rất có khả năng một cái gì đó bị phá vỡ mà bạn thậm chí không nghĩ đến từ xa.
Ví dụ cụ thể
Khả năng tiếp cận
Văn bản được mã hóa không chỉ tồn tại để được hiển thị trong một số phông chữ. Nó cũng có thể được giải thích, ví dụ, bởi các trình đọc màn hình. Và một trình đọc màn hình không cần phải đoán xem
𝓽𝓱𝓮
có nghĩa là bài viết xác định hoặc sản phẩm toán học 2 của các biến 𝓽, và - đó là những gì các ký tự được tạo ra cho. Do đó, hành vi tốt nhất sẽ là loại bỏ các ký tự này, ví dụ như nói theo nghĩa đen như sau:
script đậm t nhỏ, script đậm h nhỏ, script đậm e nhỏ
Thay vào đó, không nên chỉ nói tiếng Nhật bởi vì sau đó nó sẽ không đọc đúng các văn bản toán học có biểu tượng xảy ra để tạo thành một từ có thể phát âm được. 3
Tính di động
Nếu văn bản của bạn được hiển thị độc đáo trên máy của bạn, điều này không có nghĩa là nó cũng sẽ nằm trên văn bản của người đọc. Ví dụ rõ ràng nhất là người đọc không có bất kỳ phông chữ nào hỗ trợ các ký tự này hoặc văn bản được hiển thị bởi một phần mềm không hỗ trợ phông chữ dự phòng. Phải thừa nhận rằng điều này ngày càng trở nên ít phổ biến hơn. Hãy nhớ rằng mặc dù một số người thích chứng khó đọc cần các phông chữ đặc biệt ít có khả năng hỗ trợ các ký tự này.
Nhưng ngay cả khi máy của người đọc chỉ sử dụng một phông chữ khác, điều này có thể làm cho văn bản dễ đọc hơn đáng kể. Đối với một ví dụ đầu tiên , đây là 𝓉𝒽ℯ được hiển thị với hai phông chữ khác nhau:
Free Serif hiển thị văn bản như bạn có thể muốn nó được hiển thị khi sử dụng các ký tự đặc biệt để mô phỏng văn bản, cụ thể là mô phỏng chữ viết tay với một nét vẽ liên tục. Tuy nhiên, các ký tự này được tạo ra để sử dụng làm biểu tượng toán học, kết nối không có ý nghĩa. Do đó, kết xuất bởi STIX , được thiết kế đặc biệt cho mục đích toán học, phù hợp hơn với cách sử dụng các ký tự này.
Trong một ví dụ thứ hai , giả sử bạn hoặc người đọc in nghiêng cho tôi vì một số lý do. Với một phông chữ tốt, bạn sẽ nhận được 4 :
Lý do cho điều này là vì các chữ hoa nhỏ được mô phỏng (một phần) bằng các chữ cái Cyrillic và chữ in nghiêng Cyrillic đôi khi trông rất khác so với các bản sao thẳng đứng của chúng . Vì vậy, một lần nữa, đây là hành vi thích hợp.
Khả năng tìm kiếm
Để làm ví dụ đầu tiên, hãy xem xét những gì bạn muốn tìm kiếm hợp lý để thực hiện với ký tự (tập lệnh toán học W ). Giả sử rằng tìm kiếm có hai chế độ, chế độ mặc định và chế độ chính xác (thường được gọi là phân biệt chữ hoa chữ thường ). Nhân vật này phải là:
được tìm thấy khi tìm kiếm w hoặc W ở chế độ mặc định - cho những người không muốn bận tâm nhập hoặc sao chép ký tự đặc biệt vào trường tìm kiếm;
được tìm thấy khi tìm kiếm trong chế độ chính xác - cho những người muốn tìm kiếm nơi biến tương ứng được đề cập trong tài liệu toán học³;
không tìm thấy khi tìm kiếm, w hoặc W ở chế độ chính xác trên tài khoản phá vỡ tìm kiếm tương tự như trên.
Tuy nhiên, nếu bạn sử dụng ký tự này để mô phỏng văn bản thông thường, thì nên tìm thấy nó khi tìm kiếm W hoặc ở chế độ chính xác, xung đột với điều trên.
Như một ví dụ thứ hai xem xét rằng các ký tự Cyrillic không bao giờ nên được tìm thấy khi tìm kiếm các ký tự Latin và ngược lại, vì chúng hoàn toàn khác nhau. Tuy nhiên, nếu sử dụng các ký tự Cyrillic để mô phỏng các chữ hoa nhỏ của Latin, bạn cần điều này xảy ra, nếu bạn không muốn khả năng tìm kiếm bị phá vỡ. Điều này sẽ dẫn đến việc mọi người tìm thấy rất nhiều thứ vô dụng nếu họ tìm kiếm một từ trong bảng chữ cái Latinh hiếm gặp tương ứng với các chữ cái giả nhỏ của một số từ trong bảng chữ cái Cyrillic phổ biến (và ngược lại).
Một tùy chọn tìm kiếm chính xác không thể giải quyết vấn đề này, vì điều này được dành riêng cho các mục đích khác trong các bảng chữ cái đó.
Nói chung , không thể xây dựng một tìm kiếm (không có số lượng tùy chọn điên rồ) không bị phá vỡ bằng cách sử dụng các ký tự đặc biệt để mô phỏng văn bản Latin theo kiểu.
1 Bạn có biết rằng XKCD về sự thất bại không thể tránh khỏi của việc thống nhất các tiêu chuẩn ? Vâng, Unicode đã thành công.
2 hoặc bất cứ toán tử trống nào nằm trong quy ước thích hợp
3 Tôi biết rằng rất ít văn bản toán học hiện nay hỗ trợ mã hóa này hoặc một cái gì đó tương thích với nó nhưng vấn đề là một ngày nào đó chúng hy vọng sẽ làm được. Văn bản lạm dụng Unicode của bạn vẫn có thể xuất hiện và đọc sau đó.
4 Trừ khi bạn đang bản địa hóa cho người Macedonia hoặc người Serbia, trong đó bạn sẽ nhận được kết quả khác nhau nhưng vẫn không mong muốn.