UTF-8 có thể hỗ trợ việc đưa vào một ngôn ngữ ngoài hành tinh rộng lớn với hàng triệu nhân vật mới không?

86

Trong trường hợp có một cuộc xâm lược của người ngoài hành tinh xảy ra và chúng tôi buộc phải hỗ trợ ngôn ngữ của họ trong tất cả các hệ thống máy tính hiện tại của chúng tôi, UTF-8 có được thiết kế theo cách cho phép số lượng ký tự khổng lồ của họ không?

(Tất nhiên, chúng tôi không biết người ngoài hành tinh có thực sự có ngôn ngữ hay không, nếu hoặc cách họ giao tiếp, nhưng vì lý do tranh luận, vui lòng chỉ tưởng tượng họ làm như vậy.)

Chẳng hạn, nếu ngôn ngữ của họ bao gồm hàng triệu glyphs mới, ký hiệu và / hoặc ký tự kết hợp , về mặt lý thuyết, UTF-8 có thể được mở rộng theo cách không phá vỡ để bao gồm các glyph mới này và vẫn hỗ trợ tất cả các phần mềm hiện có không?

Tôi quan tâm nhiều hơn nếu glyphs vượt xa các giới hạn kích thước hiện tại và yêu cầu nhiều byte hơn để thể hiện một glyph duy nhất. Trong trường hợp không thể mở rộng UTF-8 , điều đó có chứng minh rằng lợi thế duy nhất so với UTF-32 chỉ đơn giản là kích thước của các ký tự thấp hơn không?

unicode utf-8

— Qix
nguồn

16

"Hỗ trợ ngôn ngữ của họ " (nhấn mạnh của tôi) ... Có bao nhiêu? Chúng tôi có chắc chắn các ngôn ngữ có thể được chia thành các ký tự không? Có lẽ ngôn ngữ dựa trên quan hệ không gian. - xem Ted Chiang "Câu chuyện về cuộc sống của bạn", Câu chuyện về cuộc sống của bạn và những người khác . Tốt nhất, đây chỉ đơn giản là một câu hỏi max-Things-in-X-byte (ngoài chủ đề). Tồi tệ nhất, đó là vô nghĩa đầu cơ. (không rõ những gì bạn đang hỏi)

— Scant Roger

6

@ScantRoger Câu trả lời được chấp nhận thực hiện tốt công việc trả lời câu hỏi như dự định.

— Qix

11

Câu trả lời được chấp nhận thực hiện tốt công việc cho chúng tôi biết sự thật về UTF-8, UTF-16 và UTF-32. Bạn chỉ có thể tìm kiếm điều này trên Wikipedia. Đối với "cuộc xâm lược của người ngoài hành tinh", tôi không thấy câu trả lời giải quyết nó như thế nào.

— Scant Roger

10

Liên quan (trên Stack Overflow): UTF-8 có đủ cho tất cả các ngôn ngữ phổ biến không?

— yannis

9

Unicode không hỗ trợ ngôn ngữ, nó hỗ trợ các ký tự - glyphs được sử dụng để thể hiện ý nghĩa ở dạng viết. Nhiều ngôn ngữ của con người không có tập lệnh và do đó không thể được hỗ trợ bởi unicode. Chưa kể nhiều động vật giao tiếp nhưng không có ngôn ngữ viết. Truyền thông bằng cách nói minh họa hoặc truyện tranh không lời có thể được hỗ trợ bởi unicode vì tập hợp glyphs không hữu hạn. Theo định nghĩa, chúng tôi không biết người ngoài hành tinh giao tiếp như thế nào, vì vậy câu hỏi của bạn là không thể trả lời. Nếu bạn chỉ muốn biết có bao nhiêu ký tự riêng biệt mà unicode có thể hỗ trợ, có lẽ bạn nên làm rõ :)

— JacquesB

109

Tiêu chuẩn Unicode có nhiều không gian để dự phòng. Các bảng mã Unicode được tổ chức trong các mặt phẳng của máy tính và các khối của Google. Trong tổng số 17 máy bay, có 11 chiếc hiện chưa được chỉ định . Mỗi mặt phẳng chứa 65.536 ký tự, do đó, thực tế có nửa triệu điểm mã để dành cho một ngôn ngữ ngoài hành tinh (trừ khi chúng ta điền vào tất cả các biểu tượng đó bằng nhiều biểu tượng cảm xúc hơn trước khi tiếp xúc lần đầu). Kể từ Unicode 8.0, chỉ có 120.737 điểm mã đã được chỉ định trong tổng số (khoảng 10% tổng công suất), với cùng một lượng không được gán nhưng dành riêng cho sử dụng riêng, dành riêng cho ứng dụng. Tổng cộng, 974.530 điểm mã không được chỉ định.

UTF-8 là một mã hóa cụ thể của Unicode và hiện bị giới hạn ở bốn octet (byte) cho mỗi điểm mã, phù hợp với các giới hạn của UTF-16. Đặc biệt, UTF-16 chỉ hỗ trợ 17 máy bay. Trước đây, UTF-8 đã hỗ trợ 6 octet cho mỗi điểm mã và được thiết kế để hỗ trợ 32768 máy bay. Về nguyên tắc, giới hạn 4 byte này có thể được dỡ bỏ, nhưng điều đó sẽ phá vỡ cấu trúc tổ chức hiện tại của Unicode và sẽ yêu cầu UTF-16 bị loại bỏ - không thể xảy ra trong tương lai gần khi xem xét cách thức cố thủ trong các hệ điều hành và lập trình nhất định ngôn ngữ.

Lý do duy nhất UTF-16 vẫn được sử dụng phổ biến là vì nó là phần mở rộng cho mã hóa UCS-2 thiếu sót chỉ hỗ trợ một mặt phẳng Unicode duy nhất. Mặt khác, nó thừa hưởng các thuộc tính không mong muốn từ cả UTF-8 (không phải chiều rộng cố định) và UTF-32 (không tương thích ASCII, lãng phí không gian cho dữ liệu chung) và yêu cầu các dấu thứ tự byte để khai báo độ bền. Cho rằng mặc dù những vấn đề này UTF-16 vẫn còn phổ biến, tôi không quá lạc quan rằng điều này sẽ sớm thay đổi. Hy vọng rằng, các Lãnh chúa ngoài hành tinh mới của chúng ta sẽ thấy sự cản trở này đối với sự cai trị của họ và trong trí tuệ của họ đã trục xuất UTF-16 khỏi bề mặt trái đất .

— amon
nguồn

7

Trên thực tế, UTF-8 chỉ giới hạn ở một phần của giới hạn 4 byte, để phù hợp với UTF-16. Cụ thể, đến 17/32 của nó, hơn một nửa.

— Ded repeatator

5

Ngoài Windows tôi không biết hệ điều hành nào khác trong đó HĐH hoặc phần lớn các chương trình trên HĐH đều sử dụng UTF16. Các chương trình OSX thường là UTF8, các chương trình Android thường là UTF8, Linux thường là UTF8. Vì vậy, tất cả những gì chúng ta cần là cho Windows chết (nó đã chết trong không gian di động)

— slebetman

23

Trừ khi chúng tôi điền vào tất cả những điều đó với nhiều biểu tượng cảm xúc hơn trước khi tiếp xúc lần đầu ... Bạn có nó. Mối đe dọa đáng kể nhất đối với sự tương tác hòa bình với người ngoài hành tinh là biểu tượng cảm xúc. Chúng ta sẽ cam chịu.

— gà trống

13

@slebetman Không hẳn. Bất cứ điều gì dựa trên JVM đều sử dụng UTF-16 (Android cũng vậy, không hiểu tại sao bạn nói không), JavaScript sử dụng UTF-16 và cho rằng Java và JavaScript là ngôn ngữ phổ biến nhất, UTF-16 sẽ không đi đâu cả Sớm.

— Malcolm

5

@Kaiserludi "Hầu hết các mã linux sử dụng UTF32 cho unicode", yeah, no. Nghiêm túc mà bạn có ý tưởng đó? Thậm chí không có một wfopen tòa nhà chọc trời hay bất cứ thứ gì khác, đó là UTF8 mọi cách. Ngay cả Python và Java - cả hai đều xác định chuỗi là UTF-16 vì lý do lịch sử - không lưu trữ chuỗi dưới dạng UTF-16 trừ khi cần thiết .. lợi ích bộ nhớ lớn và không có hiệu suất truy cập (và mặc dù có thêm mã để xử lý chuyển đổi - bộ nhớ đắt, CPU rẻ). Android cũng vậy - JString của NDK là UTF8, chủ yếu là do các kỹ sư của Google không điên.

— Voo

30

Nếu UTF-8 thực sự được mở rộng, chúng ta nên xem mức tối đa tuyệt đối mà nó có thể đại diện. UTF-8 có cấu trúc như thế này:

Char. number range  |        UTF-8 octet sequence
   (hexadecimal)    |              (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

(được sao chép một cách không biết xấu hổ từ RFC .) Chúng ta thấy rằng byte đầu tiên luôn kiểm soát số lượng byte theo dõi tạo nên ký tự hiện tại.

Nếu chúng tôi mở rộng nó để cho phép tối đa 8 byte, chúng tôi sẽ nhận được các biểu diễn phi Unicode bổ sung

111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
11111111 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Tính toán các biểu diễn tối đa có thể có mà kỹ thuật này cho phép chúng tôi tìm đến

  10000000₂
+ 00100000₂ * 01000000₂
+ 00010000₂ * 01000000₂^2
+ 00001000₂ * 01000000₂^3
+ 00000100₂ * 01000000₂^4
+ 00000010₂ * 01000000₂^5
+ 00000001₂ * 01000000₂^6
+ 00000001₂ * 01000000₂^7

hoặc trong cơ sở 10:

  128
+  32 * 64
+  16 * 64^2
+   8 * 64^3
+   4 * 64^4
+   2 * 64^5
+   1 * 64^6
+   1 * 64^7

cung cấp cho chúng tôi số lượng đại diện tối đa là 4.468.982.745.216.

Vì vậy, nếu 4 tỷ ( hoặc nghìn tỷ, như bạn muốn ), đủ để thể hiện các ngôn ngữ ngoài hành tinh, tôi khá tích cực rằng chúng ta có thể, với nỗ lực tối thiểu, mở rộng UTF-8 hiện tại để làm hài lòng các lớp phủ ngoài hành tinh mới của chúng tôi ;-)

— Boldewyn
nguồn

8

Hiện tại UTF-8 chỉ giới hạn ở các điểm mã cho đến 0x10FFFF - nhưng đó chỉ là để tương thích với UTF-16. Nếu có nhu cầu mở rộng nó, không có sự mơ hồ về cách mở rộng nó với các điểm mã cho đến 0x7FFFFFFF (đó là 2³¹-1). Nhưng ngoài ra tôi đã thấy những định nghĩa mâu thuẫn. Một định nghĩa tôi đã thấy có 111111xxmột byte đầu tiên có thể theo sau là năm byte mở rộng cho tối đa 2³² điểm mã. Nhưng điều đó chỉ tương thích với định nghĩa bạn đề cập cho các điểm mã 2³¹ đầu tiên.

— kasperd

2

Vâng, Wikipedia nói điều gì đó về UTF-16, khi thực sự chúng có nghĩa là Unicode hoặc ISO 10646 (tùy thuộc vào ngữ cảnh). Trên thực tế, vì RFC 3629, UTF-8 không được xác định ngoài U + 10FFFF (hoặc F4 8F BF BFtheo byte UTF-8). Vì vậy, tất cả mọi thứ tôi đề cập ở đây ngoài đó là đầu cơ thuần túy. Tất nhiên, ai đó có thể nghĩ về các phần mở rộng khác, trong đó một byte đầu tiên cao biểu thị một số cấu trúc khác theo sau (và hy vọng không phá hủy tự đồng bộ hóa trong quy trình). Mặc dù vậy, tôi đã cố gắng hoàn thành sơ đồ byte để càng gần với UTF-8 thực sự càng tốt.

— Boldewyn

4

Đó là 4 nghìn tỷ, không phải bốn triệu.

— Ypnypn

1

Không thực sự cần thiết cho số lượng byte sau phải luôn nhỏ hơn số lượng byte hàng đầu trong byte đầu tiên. Perl thực sự hỗ trợ (từ năm 2000) một biến thể bên trong của UTF-8 trong đó các dạng 5, 6 và 7 byte giống như câu trả lời này, nhưng FFgiới thiệu một đơn vị mã 13 byte có khả năng lưu trữ 72 bit. Bất cứ thứ gì trên 2 ^ 36 đều rất đắt, nhưng nó cho phép mã hóa int 64 bit và sau đó một số.

— hobbs

7

RFC3629 hạn chế UTF-8 tối đa bốn byte cho mỗi ký tự, với giá trị tối đa là 0x10FFFF, cho phép tối đa 1.112.064 điểm mã. Rõ ràng hạn chế này có thể được gỡ bỏ và tiêu chuẩn được mở rộng, nhưng điều này sẽ chứng minh một sự thay đổi đột phá cho mã hiện có hoạt động đến giới hạn đó.

Từ quan điểm tệp dữ liệu, đây sẽ không phải là một thay đổi đột phá vì tiêu chuẩn hoạt động trên cơ sở rằng nếu bit quan trọng nhất (MSB) của mỗi byte được đặt, thì byte tiếp theo là một phần của mã hóa. Ngay cả trước RFC3629, tiêu chuẩn đã bị giới hạn ở 31 bit, khiến MSB của byte thứ tư không được đặt.

Việc mở rộng tiêu chuẩn vượt quá 0x10FFFF sẽ phá vỡ khả năng tương thích dữ liệu một phần của UTF-8 với UTF-16.

— David Arno
nguồn

5

Vậy theo lý thuyết, dữ liệu sẽ tương thích ngược, nhưng mã vốn không tương thích với việc sửa đổi theo tiêu chuẩn?

— Qix

2

@Qix, Đó là một điểm hợp lệ. Bất kỳ tệp UTF-8 hiện tại nào cũng sẽ tương thích một cách tự nhiên với ví dụ tối đa 6 byte để chứa thêm hàng triệu điểm mã, nhưng nhiều thư viện hiện có được thiết kế để xử lý UTF-8 có thể sẽ không xử lý phần mở rộng đó.

— David Arno

4

UTF-16 sẽ phá vỡ nghiêm trọng. Nó vốn chỉ có thể hỗ trợ các điểm mã lên đến 0x10FFFF.

— gnasher729

1

@ gnasher729: Không phải là vấn đề lớn như bạn nghĩ. Pre-Unicode đã giải quyết điều này thông qua các giá trị thay đổi (Shift JIS cho tiếng Nhật). Họ chỉ đơn giản đánh dấu một ký tự dành riêng / không sử dụng (0xFFFD?) Là "ký tự thay đổi", chuyển mã hóa thành dạng mở rộng hơn. Có lẽ là UTF32.

— Vịt Mooing

4

Thực sự, chỉ có 2 mã điểm Unicode là vô số glyphs, nếu chúng được kết hợp các ký tự.

Ví dụ, so sánh hai cách mà Unicode mã hóa cho bảng chữ cái Hangul của Hàn Quốc: Hangul Syllables và Hangul Jamo . Ký tự 웃 in Hangul Syllabelslà điểm mã đơn C6C3trong khi trong Hangul Jamođó là ba điểm mã 110B(ㅇ) 116E(ㅜ) 11B9(ㅅ). Rõ ràng, việc sử dụng kết hợp các ký tự chiếm ít điểm mã hơn, nhưng sẽ kém hiệu quả hơn khi viết vì cần nhiều byte hơn để viết mỗi ký tự.

Với thủ thuật này, không cần phải vượt quá số điểm mã hiện có thể được mã hóa trong UTF-8 hoặc UTF-16.

Tôi đoán nó liên quan đến việc người ngoài hành tinh bị xúc phạm như thế nào nếu ngôn ngữ của họ xảy ra đòi hỏi nhiều byte hơn cho mỗi tin nhắn so với ngôn ngữ trần gian. Nếu họ không bận tâm, đại diện cho mỗi triệu nhân vật của họ bằng cách sử dụng một câu nói lộn xộn, 100k kết hợp các ký tự, thì không có vấn đề gì; mặt khác, nếu bị buộc phải sử dụng nhiều byte hơn người trái đất khiến họ cảm thấy như công dân hạng hai, chúng ta có thể gặp phải một số xung đột ( không giống như những gì chúng ta đã quan sát với UTF-8 ).

— Owen
nguồn

Đây chỉ là trường hợp nếu các ký tự trong ngôn ngữ ngoài hành tinh thực sự bao gồm một tập đồ thị hạn chế hơn. Đây có thể không phải là trường hợp.

— JacquesB

1

Theo như tôi biết, không có yêu cầu nào về việc kết hợp các ký tự cần liên quan đến các biểu đồ riêng lẻ. Câu hỏi thường gặp về Unicode là im lặng về vấn đề này, nhưng ấn tượng của tôi là công cụ bố trí sẽ không khó hơn để hỗ trợ các chuỗi kết hợp không phải là chuỗi biểu đồ, vì trong cả hai trường hợp đều cần phải có glyph.

— Owen

Những người ngoài hành tinh này sống được bao lâu và có bao nhiêu nhân vật không thể phân tách thành đồ thị mà họ có thể học được trong thời thơ ấu? Và Hangul được phân tách trước có giữ được lợi thế byte của nó so với Hangul bị phân hủy ngay cả sau gzip không?

— Damian Yerrick

-2

Chỉnh sửa: Câu hỏi bây giờ nói "hàng triệu nhân vật mới". Điều này giúp bạn dễ dàng trả lời:

Không . Utf-8 là một mã hóa Unicode. Unicode có một không gian mã cho phép 1.114.112 điểm mã riêng biệt và dưới một triệu hiện chưa được gán. Vì vậy, không thể hỗ trợ hàng triệu ký tự mới trong Unicode. Theo định nghĩa, không mã hóa Unicode có thể hỗ trợ nhiều ký tự hơn so với định nghĩa của Unicode. (Tất nhiên bạn có thể gian lận bằng cách mã hóa một cấp độ hơn nữa - bất kỳ loại dữ liệu nào cũng có thể được biểu thị chỉ bằng hai ký tự.)

Để trả lời câu hỏi ban đầu:

Unicode không hỗ trợ các ngôn ngữ như vậy, nó hỗ trợ các ký tự - ký hiệu được sử dụng để thể hiện ngôn ngữ ở dạng viết.

Không phải tất cả các ngôn ngữ của con người đều có một văn bản đại diện, vì vậy không phải tất cả các ngôn ngữ của con người đều có thể được hỗ trợ bởi Unicode. Hơn nữa, nhiều động vật giao tiếp nhưng không có ngôn ngữ viết. Ví dụ, cá voi có một hình thức giao tiếp đủ phức tạp để gọi một ngôn ngữ, nhưng không có bất kỳ hình thức bằng văn bản nào (và cũng không thể bị bắt bởi ký hiệu ngữ âm hiện tại). Vì vậy, thậm chí không phải tất cả các ngôn ngữ trên trái đất đều có thể được hỗ trợ bởi Unicode.

Thậm chí tệ hơn là một cái gì đó giống như ngôn ngữ của ong. Nó không chỉ không có dạng viết mà còn không thể được biểu diễn dưới dạng viết. Ngôn ngữ là một loại vũ đạo về cơ bản chỉ theo một hướng nhưng dựa vào vị trí hiện tại của mặt trời. Do đó, điệu nhảy chỉ có giá trị thông tin tại địa điểm và thời gian cụ thể được thực hiện. Một đại diện mang tính biểu tượng hoặc văn bản sẽ phải bao gồm thông tin (vị trí, vị trí của mặt trời) mà ngôn ngữ của loài ong hiện không thể diễn tả.

Ngay cả một hình thức giao tiếp bằng văn bản hoặc tượng trưng cũng có thể không thể biểu thị bằng Unicode. Ví dụ minh họa hoặc truyện tranh không lời có thể được hỗ trợ bởi Unicode vì tập hợp glyphs không hữu hạn. Bạn sẽ nhận thấy rất nhiều giao tiếp bằng hình ảnh trong môi trường quốc tế như sân bay, vì vậy không thể tưởng tượng được rằng một chủng tộc người ngoài hành tinh du hành vũ trụ sẽ phát triển để sử dụng ngôn ngữ hình ảnh.

Ngay cả khi một chủng tộc ngoài hành tinh có ngôn ngữ với hệ thống chữ viết với bộ ký hiệu hữu hạn, hệ thống này có thể không hỗ trợ bằng Unicode. Unicode mong muốn viết là một chuỗi ký hiệu tuyến tính. Ký hiệu âm nhạc là một ví dụ về một hệ thống chữ viết không thể được trình bày đầy đủ bằng Unicode, vì ý nghĩa được mã hóa trong cả hai lựa chọn ký hiệu và vị trí dọc và ngang. . Unicode không thể hỗ trợ điều này.

Nhưng cho phép tranh luận giả định rằng tất cả các ngôn ngữ, thậm chí cả ngôn ngữ ngoài hành tinh, có thể được biểu diễn dưới dạng một chuỗi ký hiệu tuyến tính được chọn từ một tập hợp hữu hạn. Unicode có đủ lớn cho một cuộc xâm lược của người ngoài hành tinh không? Unicode hiện có ít hơn một triệu điểm mã chưa được gán. Ngôn ngữ Trung Quốc chứa hàng trăm nghìn ký tự theo từ điển tiếng Trung toàn diện nhất (không phải tất cả chúng đều được Unicode hỗ trợ dưới dạng các ký tự riêng biệt). Vì vậy, chỉ có mười ngôn ngữ với sự phức tạp của tiếng Trung Quốc sẽ sử dụng hết Unicode. Trên trái đất chúng ta có hàng trăm hệ thống chữ viết riêng biệt, nhưng may mắn là hầu hết là theo thứ tự chữ cái hơn là ý thức hệ và do đó chứa một số lượng nhỏ ký tự. Nếu tất cả các ngôn ngữ viết được sử dụng các chữ tượng hình như tiếng Trung Quốc, Unicode thậm chí sẽ không đủ lớn cho trái đất. Việc sử dụng bảng chữ cái có nguồn gốc từ lời nói chỉ sử dụng một số lượng âm vị giới hạn, nhưng đó là đặc biệt cho sinh lý của con người. Vì vậy, ngay cả một hành tinh ngoài hành tinh duy nhất chỉ có một tá hệ thống chữ viết ý thức hệ có thể vượt quá những gì Unicode có thể hỗ trợ. Bây giờ hãy xem xét nếu người ngoài hành tinh này đã xâm chiếm các hành tinh khác trước trái đất và đưa hệ thống chữ viết của họ vào tập hợp các ký tự phải được hỗ trợ.

Việc mở rộng hoặc sửa đổi các bảng mã hiện tại hoặc giới thiệu các bảng mã mới sẽ không giải quyết được điều này, vì giới hạn nằm ở số lượng điểm mã được Unicode hỗ trợ.

Vì vậy, câu trả lời rất có thể là không.

— JacquesB
nguồn

5

Bạn đang thiếu trí tưởng tượng. Các biên đạo múa có rất nhiều ngôn ngữ và thuật ngữ họ có thể sử dụng để mô tả và dạy các điệu nhảy mà các diễn viên sân khấu sẽ biểu diễn. Nếu chúng ta học những gì ong đang truyền đạt, chúng ta chắc chắn có thể nghĩ ra một thuật ngữ bằng văn bản cho nó. Xét cho cùng, hầu hết các ngôn ngữ viết của chúng ta ngày nay là một mã hóa âm thanh. Chuyển động mã hóa không khác gì âm thanh mã hóa.

— whatsisname

3

Các phần của câu trả lời này là tốt nhưng để nói "Không chỉ không có dạng viết, nó còn có thể được thể hiện dưới dạng viết" hoàn toàn sai. Bất cứ điều gì truyền tải thông tin đều có thể được giảm xuống thành bit và bất kỳ thứ gì được giảm thành bit đều có thể được chuyển đổi thành bất kỳ dòng ký tự nào bạn thích.

— Steven Burnap

2

@StevenBurnap Đúng, nhưng Unicode không chỉ là một chuỗi các bit. Đó là một cách để giải thích các bit đó, khá cứng nhắc. Có, bộ ký tự Unicode có thể được mở rộng để thể hiện mọi thứ từ hình ảnh đến hướng dẫn CNC, nhưng đây sẽ là một sinh vật rất khác.

— Owen

4

Hãy nhớ rằng những biểu tượng unicode mô tả (trong hầu hết các ngôn ngữ) là các mẫu trong sự thay đổi của áp suất không khí, và đối với hầu hết các ngôn ngữ, nó thực sự làm một công việc khá nhảm nhí khi thực sự khớp với các mẫu đó.

— Steven Burnap

3

Vậy ý bạn là câu "bay 45 giây với mặt trời 15 độ về bên trái, sau đó bay 10 giây với mặt trời 10 độ bên phải" là không thể? Nó chắc chắn đòi hỏi vị trí của mặt trời tại thời điểm như bối cảnh.

— Steven Burnap