Yêu cầu tuyệt đối, tối thiểu để chứa bộ ký tự Đông Nam Á cho một dự án hệ thống nhúng là gì?


14

Tôi làm việc cho một công ty đã bắt đầu tích hợp các hệ thống máy tính nhúng vào các sản phẩm mà chúng tôi sản xuất. Chúng tôi có một loạt các sản phẩm khá rộng và chúng được phân phối trên toàn cầu. Ngoài ra, chúng tôi đã thiết kế một vài bảng tích hợp có thể phục vụ nhiều mục đích tùy thuộc vào phần sụn đã được flash vào hệ thống. Bằng cách này, chúng tôi không phải thiết kế lại phần cứng máy tính cho các sản phẩm khác nhau của mình - tất cả những gì chúng tôi phải làm là viết lại lớp chương trình cơ sở để đáp ứng nhu cầu của sản phẩm cụ thể.

Do những hạn chế về phần cứng này, việc thay đổi phần cứng của chúng tôi có một hành động đại hội nhưng việc viết phần mềm mới đơn giản hơn nhiều.

Một trong những sản phẩm của chúng tôi có một yêu cầu mới mà trước đây chúng tôi chưa phải thực hiện, đó là nhu cầu về văn bản nhập vào của người dùng.

Hiện tại, chúng tôi đã có thể lưu trữ văn bản quốc tế trong tài nguyên và chỉ các ký tự phông chữ cần thiết được biên dịch thành hình ảnh ánh xạ bit. Điều này có nghĩa là chúng tôi có thể lưu trữ các ngôn ngữ có ý thức hệ cao như văn bản Trung Quốc và Nhật Bản trong một không gian tối thiểu vì chúng tôi chỉ sử dụng một tỷ lệ rất nhỏ trong toàn bộ ngôn ngữ.

Vì sản phẩm mới này sẽ yêu cầu người dùng nhập văn bản, chúng tôi sẽ phải triển khai một bộ ký tự mở rộng. Là chủ yếu là nhà phát triển PC, tôi khá quen thuộc với ASCII, Unicode, UTF-8, v.v., tuy nhiên, việc triển khai một bộ ký tự đầy đủ của bất kỳ ngôn ngữ nào trong số này là không khả thi vì chúng tôi có số lượng FRAM hạn chế trên bảng để lưu trữ dữ liệu phông chữ.

Quản lý của tôi hy vọng rằng có một bộ ký tự tối thiểu có thể được sử dụng cho các ngôn ngữ có ý thức hệ cao. Tôi tin rằng có một bảng chữ cái ngữ âm cho tiếng Nhật (Hiragana?) Có bảng chữ cái ngữ âm tương tự cho các ngôn ngữ Trung Quốc, Hàn Quốc, Việt Nam, v.v. và nếu vậy, những người nói các ngôn ngữ này có thể giao tiếp với một bộ ký tự hẹp như vậy không? Tôi khá chắc chắn câu trả lời cho câu hỏi đó là "hoàn toàn, không" nhưng đó là một câu hỏi đáng để hỏi.

Ban quản lý đã đặt ra yêu cầu "mềm" là chúng ta chỉ có thể có một bộ ký tự giới hạn gồm khoảng 8.000 ký tự bao gồm tất cả các ngôn ngữ chính được sử dụng phổ biến. Nếu điều này là không thể, chúng ta cần tìm kiếm một số hình thức phương pháp thay thế để đáp ứng nhu cầu của chúng tôi dựa trên nguồn lực phần cứng hạn chế của chúng tôi.

Tôi chắc chắn rằng vấn đề này đã được giải quyết trước đây. Có ai có kinh nghiệm làm việc trong các ràng buộc như vậy trong khi cần một hệ thống mã hóa ký tự và phông chữ mở rộng không? Nếu vậy, bạn có thể cung cấp những gì của trí tuệ?


Cả Hàn Quốc và Nhật Bản đều không thuộc Đông Nam Á. Chúng thuộc về E Asia. Tất nhiên nếu bạn muốn nói là S, SE và E Asia, xin vui lòng viết như vậy.
lalala

Câu trả lời:


25

Đây là một câu hỏi tuyệt vời.

Để giải quyết câu trả lời của bạn một ngôn ngữ tại một thời điểm;

Tiếng Việt

Tiếng Việt không sử dụng các ký tự ý thức hệ nữa, nhưng bộ chữ Latinh của nó khá rộng: nhìn vào ví dụ để xem nó sử dụng bao nhiêu dấu phụ:

Tiếng Việt, hay Việt ngữ, là ngôn ngữ của người Việt (người Kinh) và là quốc ngữ của quốc gia Việt Nam. Nam tính là một phần của Việt Nam, một phần của Việt Nam. Tiếng Việt từ tiếng Việt là tiếng Việt và tiếng Việt.

Lý do là mỗi âm tiết tiếng Việt có một trong sáu âm điệu có tác động phát âm - ngoài ra còn có một glyph phụ âm không chuẩn và sáu nguyên âm không chuẩn.

Unicode soạn các dấu âm trên các nguyên âm; nếu bạn có khả năng soạn glyphs, bạn sẽ chỉ cần thêm 13 glyphs cho tiếng Việt, nhưng nếu không, bạn sẽ cần thêm 1 phụ âm + 12 nguyên âm * 6 âm + 6 nguyên âm mới tonless = 79 glyphs thêm , in hoa và chữ hoa

Hàn Quốc

Tiếng Hàn là tin xấu. Tiếng Hàn được viết mặc dù một bảng chữ cái gọi là Hangul , trong khi về mặt kỹ thuật là một bảng chữ cái chỉ có 68 chữ cái (được gọi là jamo), thực sự được viết bằng các khối có kích thước âm tiết, được xây dựng từ jamo.

Một ví dụ về cách văn bản tiếng Hàn trông:

또는 조선, 1443 년 조선 4 대 임금 세종 훈민정음 訓 (正音) hình 창제 46 1446 년 에 반포 하였다. 94 94 94 94 94 94 94 94 94 94 94 94 94 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 .

Unicode có 11.172 ký tự khối đã hoàn thành - nhưng nếu bạn sẵn sàng viết mã logic để tự mình soạn các khối khối cuối cùng, bạn có thể tiết kiệm rất nhiều cho bộ ký tự.

Về cơ bản, tất cả các âm tiết có thể được chia thành hai loại - phụ âm + nguyên âm và phụ âm + nguyên âm + cuối cùng, trong đó cuối cùng có thể là nguyên âm, phụ âm hoặc hỗn hợp. Âm tiết CV được xây dựng với C ở bên trái và V ở bên phải; Phụ âm CVF được sáng tác với khối CV ở trên cùng (từ trái sang phải) và cuối cùng ở phía dưới.

Vì vậy, về cơ bản, bạn cần:

  • 19 tên viết tắt, dưới hai hình thức
  • 21 huy chương, dưới hai hình thức
  • 28 trận chung kết

cho tổng số 108 ký hiệu . (Tôi không hoàn toàn chắc chắn rằng không có chữ ghép tiếng Nhật nào trong tiếng Hàn, do đó, đôi khi một khối được xây dựng trông khác so với sự kết hợp của các thành phần, nhưng đó là thứ tốt nhất chúng ta sẽ có bây giờ).

tiếng Nhật

Như bạn đã nhận thấy một cách chính xác, tiếng Nhật có một bảng chữ cái ngữ âm - nhưng thực ra, không chỉ một, mà là hai! Hiragana và Katakana là những âm tiết, cả hai đều có 48 âm tiết giống nhau, nhưng được sử dụng trong các ngữ cảnh khác nhau (katakana được sử dụng cho các từ nước ngoài, hiragana được sử dụng cho ngữ pháp).

Đáng buồn thay (vì mục đích của chúng tôi), tiếng Nhật gần như không thể viết hoàn toàn bằng cách chỉ sử dụng hai bảng chữ cái này - ký tự Trung Quốc hoặc kanji , như chúng được biết đến trong ngữ cảnh này, rất cần thiết cho bất kỳ văn bản tiếng Nhật nào.

Ví dụ viết bắt buộc:

仮 仮 名 'ら わ 字

Ngoài kanji, bạn sẽ cần 103 glyphs để ánh xạ hai bảng chữ cái ngữ âm + 7 chữ Hán phổ biến không tồn tại trong tiếng Trung.

Dấu chấm câu CKJ

Không phải là một chuyên gia về điều này, nhưng cả Trung Quốc và Nhật Bản đều sử dụng dấu chấm câu cổ điển, Đông Á. Unicode có 64 ký hiệu dành riêng cho dấu câu và ký hiệu của CJK.

người Trung Quốc

Vì vậy, chúng tôi có 7631 ký tự còn lại trong ngân sách của chúng tôi. Nó sẽ đủ để bao gồm các ký tự Trung Quốc?

為 上古 公元前唐代 楷 — — — —漢字

Với hơn 100.000 ký tự tồn tại, về cơ bản không thể bao gồm đầy đủ bộ ký tự Trung Quốc, tập hợp con được sử dụng tích cực nhỏ hơn nhiều. 2000-3000 ký tự được cho là đủ để biết chữ nói chung (HSK, bài kiểm tra giống như tiếng Trung của tiếng Trung, yêu cầu kiến ​​thức về 2800 ký tự cho cấp độ cao nhất, HSK Advanced), 4000-5000 ký tự là đủ cho một người có học.

Hãy nhớ rằng có các ký tự Đơn giản và Truyền thống (trước đây được sử dụng trong PRC, sau - ở Đài Loan), khác với rất nhiều ký tự, còn lại là 7600 ký hiệu, sẽ đủ để bao quát hầu hết các trường hợp sử dụng cho cả hai nhân vật.

Hãy thoải mái hỏi nếu bạn muốn hỏi điều gì!


5
Ồ Đó hoàn toàn có thể là câu trả lời hay nhất tôi từng nhận được cho bất kỳ câu hỏi nào tôi đã đăng trên SO. Tôi đã sửa đổi câu hỏi này sớm hơn ngày hôm nay vì nó còn tồn đọng. Yêu cầu của chúng tôi đã thay đổi một chút nhưng tôi cũng biết bản chất của các sản phẩm của chúng tôi và tôi thấy trước đây là một nhu cầu trong tương lai vào một thời điểm không xác định. Bạn nhận được +1 và trả lời bình chọn. Tôi ước tôi có thể cho bạn nhiều điểm hơn thế. Cảm ơn 1.000.000!
RLH

Không có tình yêu với Thái?
lalala
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.