U + 4E00..U + 9FFF là một phần của bộ hoàn chỉnh, nhưng không phải là tất cả
U + 4E00..U + 9FFF là một phần của bộ hoàn chỉnh, nhưng không phải là tất cả
Câu trả lời:
Có thể bạn sẽ tìm thấy một danh sách đầy đủ thông qua Câu hỏi thường gặp về CJK Unicode (bao gồm các ký tự "Trung Quốc, Nhật Bản và Hàn Quốc")
Các " châu Á Script Đông " tài liệu không đề cập đến:
Khối chứa các ý tưởng Hán
Các ký tự chữ Hán được tìm thấy trong năm khối chính của Chuẩn Unicode, như được trình bày trong Bảng 12-2
Bảng 12-2. Khối chứa các ý tưởng Hán
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
Lưu ý: các phạm vi khối có thể phát triển theo thời gian: mới nhất là trong CJK Unified Ideographs .
Xem thêm Wikipedia:
Unicode hiện có 74605 ký tự CJK. Các ký tự CJK không chỉ bao gồm các ký tự được sử dụng bởi tiếng Trung Quốc, mà còn có cả Kanji của Nhật Bản, Hanja của Hàn Quốc và Chu Nôm của Việt Nam . Một số ký tự CJK không phải là ký tự Trung Quốc.
Điểm mã U + 4E00 đến U + 9FCC.
Điểm mã U + 3400 đến U + 4DB5 . Unicode 3.0 (1999).
Điểm mã U + 20000 đến U + 2A6D6. Unicode 3.1 (2001).
Điểm mã U + 2A700 đến U + 2B734 . Unicode 5.2 (2009).
Điểm mã U + 2B740 đến U + 2B81D . Unicode 6.0 (2010).
Nếu những điều trên vẫn chưa đủ về spaghetti, hãy xem các vấn đề đã biết . Chúc bạn vui vẻ =)
Các phạm vi chính xác cho các ký tự Trung Quốc (ngoại trừ các phần mở rộng) là [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.
CJK Radicals Supplement là một khối Unicode chứa các dạng thay thế, thường là vị trí của các gốc Khang Hy. Chúng được sử dụng tiêu đề trong các chỉ mục từ điển và các bộ sưu tập biểu tượng CJK khác được sắp xếp theo dấu căn.
Kanbun là một khối Unicode chứa các ký tự chú thích được sử dụng trong các bản sao tiếng Nhật của các văn bản cổ điển của Trung Quốc, để chỉ ra thứ tự đọc.
CJK Unified Ideographs Extension-A là một khối Unicode chứa các chữ Hán hiếm.
CJK Unified Ideographs là một khối Unicode chứa các ký hiệu CJK phổ biến nhất được sử dụng trong tiếng Trung và tiếng Nhật hiện đại.
CJK Compatibility Ideographs là một khối Unicode được tạo ra để chứa các ký tự Hán đã được mã hóa ở nhiều vị trí trong các bảng mã ký tự đã được thiết lập khác, ngoài các nhiệm vụ của CJK Unified Ideographs, để duy trì khả năng tương thích khứ hồi giữa Unicode và các bảng mã đó.
Để biết chi tiết, vui lòng tham khảo tại đây và các phần mở rộng được cung cấp trong các câu trả lời khác.
Phiên bản Unicode 11.0.0
Trong Unicode, các chữ viết tiếng Trung, tiếng Nhật và tiếng Hàn (CJK) có chung một nền tảng, được gọi chung là các ký tự CJK.
Các phạm vi này thường chứa các điểm mã không được chỉ định hoặc dành riêng (chẳng hạn như U + 2E9A , U + 2EF4 - 2EFF),
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
Do đó phạm vi là
[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]
Chúng là Hán tự chỉ dùng để tương thích.
Hầu như không thể thấy chúng xuất hiện trong bất kỳ cuốn sách, bài báo, tác phẩm nào của Trung Quốc, v.v.
tất cả các ký tự ở đây có một ký tự tiếng Trung giống với glyph tương ứng. Chẳng hạn như 金 (U + F90A) và 金 (U + 91D1), chúng giống hệt nhau trong Glyph.
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
Đây là một phạm vi rộng, một số dấu câu có thể không bao giờ được sử dụng, một số dấu câu như ……”“
được sử dụng rất nhiều trong tiếng Trung Quốc.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Ngoài ra còn có nhiều biểu tượng liên quan đến tiếng Trung Quốc, chẳng hạn như Biểu tượng Quẻ Yijing hoặc Kanbun , nhưng dù sao thì nó cũng lạc đề. Tôi viết các ký tự không phải tiếng Trung trong CJK để giải thích rõ hơn về các ký tự Trung Quốc là gì. Và các phạm vi trên đã bao gồm hầu hết tất cả các ký tự xuất hiện trong văn viết của Trung Quốc ngoại trừ toán học và các ký hiệu đặc biệt khác.
Ký hiệu CJK và Dấu câu
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
Dạng nửa băng thông và dạng toàn băng thông
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
Các khối mã Unicode mà các câu trả lời khác đưa ra chắc chắn bao gồm hầu hết các ký tự Unicode của Trung Quốc, nhưng hãy kiểm tra một số khối mã khác này.
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
Xem cuộc thảo luận đầy đủ hơn của tôi ở đây . Và trang này thuận tiện cho việc duyệt Unicode.
Tóm lại, có vẻ như chúng là:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]