Phạm vi đầy đủ cho các ký tự Trung Quốc trong Unicode là gì?


95

U + 4E00..U + 9FFF là một phần của bộ hoàn chỉnh, nhưng không phải là tất cả


3
Tôi chỉ liên kết một bài báo wikipedia ở đây vì phạm vi khối sẽ cập nhật theo thời gian, do đó tốt hơn là liên kết một cái gì đó thay đổi động ratger tgan đưa ra một câu trả lời tĩnh ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

Câu trả lời:


104

Có thể bạn sẽ tìm thấy một danh sách đầy đủ thông qua Câu hỏi thường gặp về CJK Unicode (bao gồm các ký tự "Trung Quốc, Nhật Bản và Hàn Quốc")

Các " châu Á Script Đông " tài liệu không đề cập đến:

Khối chứa các ý tưởng Hán

Các ký tự chữ Hán được tìm thấy trong năm khối chính của Chuẩn Unicode, như được trình bày trong Bảng 12-2

Bảng 12-2. Khối chứa các ý tưởng Hán

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Lưu ý: các phạm vi khối có thể phát triển theo thời gian: mới nhất là trong CJK Unified Ideographs .

Xem thêm Wikipedia:


Bạn cũng có thể muốn bao gồm U + AC00 - U + D7AF (Âm tiết Hangul).
Flimm

12
@Flimm: Hangul không phải là một phần của tiêu chuẩn Trung Quốc; Hangul là tiếng Hàn. Ngôn ngữ Hàn Quốc không sử dụng Hanja ( "Trung Quốc kịch bản"), nhưng hiếm khi và chỉ dành cho một số điều truyền thống (như cuối cùng tên, tượng đài, nơi ...) mà không thể được sao chép lại trong Hangul. OP đã hỏi cụ thể về tiếng Trung, vì vậy không cần Người trả lời bao gồm Hangul. :-)
omninonsense

1
Danh sách dường như không bao gồm dấu chấm câu ("。").
Michał Woliński

1
@ MichałWoliński CJK Biểu tượng và Punctuation Phạm vi đó là 3000-303F
Mariano

Tôi biết được rằng Phần mở rộng Lý tưởng Hợp nhất CJK A là từ 3400 đến 4dbf thay vì 3400 đến 4dff.
Lerner Zhang

48

Unicode hiện có 74605 ký tự CJK. Các ký tự CJK không chỉ bao gồm các ký tự được sử dụng bởi tiếng Trung Quốc, mà còn có cả Kanji của Nhật Bản, Hanja của Hàn Quốc và Chu Nôm của Việt Nam . Một số ký tự CJK không phải là ký tự Trung Quốc.

1) 20941 ký tự từ khối Lý tưởng thống nhất CJK .

Điểm mã U + 4E00 đến U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 ký tự từ khối CJKUI Ext Một .

Điểm mã U + 3400 đến U + 4DB5 . Unicode 3.0 (1999).

3) 42.711 ký tự từ khối CJKUI Ext B .

Điểm mã U + 20000 đến U + 2A6D6. Unicode 3.1 (2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 ký tự từ khối CJKUI Ext C .

Điểm mã U + 2A700 đến U + 2B734 . Unicode 5.2 (2009).

4) 222 ký tự từ khối CJKUI Ext D .

Điểm mã U + 2B740 đến U + 2B81D . Unicode 6.0 (2010).

5) Khối CJKUI Ext E.

Sắp có

Nếu những điều trên vẫn chưa đủ về spaghetti, hãy xem các vấn đề đã biết . Chúc bạn vui vẻ =)


1
Xin chào, bạn có thể cho một ví dụ về một ký tự CJK (tốt nhất là từ mặt phẳng cơ bản) không phải là một ký tự Trung Quốc? Tôi nghĩ rằng các nhân vật từ các ngôn ngữ khác (Nhật Bản, Hàn Quốc) mà không còn chữ Hán xuất hiện trong khối khác (ví dụ khối Hangul Jamo, trong trường hợp của Hàn Quốc) ...
Adam Burley

Hãy thử nhìn vào 'Gukja', 'Kokuji' và 'Chữ Nôm'. U + 4E44, 乄, là một ký tự CJK chỉ có tiếng Nhật.
Ṃųỻịgǻňạcểơửṩ

21

Các phạm vi chính xác cho các ký tự Trung Quốc (ngoại trừ các phần mở rộng) là [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement là một khối Unicode chứa các dạng thay thế, thường là vị trí của các gốc Khang Hy. Chúng được sử dụng tiêu đề trong các chỉ mục từ điển và các bộ sưu tập biểu tượng CJK khác được sắp xếp theo dấu căn.

  1. [\u3190-\u319f]

Kanbun là một khối Unicode chứa các ký tự chú thích được sử dụng trong các bản sao tiếng Nhật của các văn bản cổ điển của Trung Quốc, để chỉ ra thứ tự đọc.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A là một khối Unicode chứa các chữ Hán hiếm.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs là một khối Unicode chứa các ký hiệu CJK phổ biến nhất được sử dụng trong tiếng Trung và tiếng Nhật hiện đại.

  1. [\uF900-\uFAAD]

CJK Compatibility Ideographs là một khối Unicode được tạo ra để chứa các ký tự Hán đã được mã hóa ở nhiều vị trí trong các bảng mã ký tự đã được thiết lập khác, ngoài các nhiệm vụ của CJK Unified Ideographs, để duy trì khả năng tương thích khứ hồi giữa Unicode và các bảng mã đó.

Để biết chi tiết, vui lòng tham khảo tại đây và các phần mở rộng được cung cấp trong các câu trả lời khác.


Xin người đã phản đối câu trả lời này, vui lòng cho tôi biết lý do được không?
Lerner Zhang

2
Tôi không phản đối, nhưng còn phần mở rộng B, C, D và E thì sao?
Suragch 27/02/17

@Suragch Những phần mở rộng đó đã được cung cấp chính xác trong các câu trả lời khác, do đó tôi không cần phải viết lại nó. Tôi chỉ tách biệt rõ ràng các phạm vi ở giữa.
Lerner Zhang

1. phạm vi bổ sung CJK Radicals là 2E80—2EFF 2. Kangxi Radicals không phải là ký tự Trung Quốc, nó là thành phần đồ họa của một charaters Trung Quốc, nó được sử dụng đặc biệt để thể hiện các gốc,. Ví dụ: ⼻ (U + 2F3B) và 彳 (U + 5F73 ), ⻜ (U + 2EDC) và 飞 (U + 98DE) 3. Nếu bạn nghĩ kanbun là các ký tự Trung Quốc, tại sao lại không phải là CJK Compatibility Ideographs? Tại sao các Thư và Tháng trong CJK không kèm theo?
Voyager

@rambler Cảm ơn lời khuyên của bạn. Tôi nghĩ khi chúng ta xử lý nhân vật Chinses, chúng ta nên cân nhắc đến các bộ Khang Hy Radicals và Kanbun. Những ý tưởng về khả năng tương thích của CJK là tốt nhưng các chữ cái CJK kèm theo và tháng thì quá hiếm và tôi không nghĩ chúng ta nên xem xét chúng.
Lerner Zhang

10

Phiên bản Unicode 11.0.0

Trong Unicode, các chữ viết tiếng Trung, tiếng Nhật và tiếng Hàn (CJK) có chung một nền tảng, được gọi chung là các ký tự CJK.

Các phạm vi này thường chứa các điểm mã không được chỉ định hoặc dành riêng (chẳng hạn như U + 2E9A , U + 2EF4 - 2EFF),

nhân vật Trung Quốc

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • Trong khối Ý tưởng thống nhất CJK , tôi nhận thấy nhiều câu trả lời sử dụng 9FCC giới hạn trên, nhưng U + 9FCD (鿍) thực sự là một ký tự Trung Quốc. Và tất cả các ký tự trong khối này là ký tự Trung Quốc (cũng được sử dụng trong tiếng Nhật hoặc tiếng Hàn, v.v.).
  • Hầu hết các ký tự trong CJK Unified Ideograohs Ext (Ngoại trừ Ext F, chỉ 17% trong Ext F là các ký tự Trung Quốc), là các ký tự Trung Quốc truyền thống, hiếm khi được sử dụng ở Trung Quốc.
  • 〇 là dạng ký tự Trung Quốc của số 0 và vẫn được sử dụng cho đến ngày nay

Do đó phạm vi là

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

Các ký tự CJK nhưng không bao giờ được sử dụng trong tiếng Trung Quốc

Chúng là Hán tự chỉ dùng để tương thích.

Hầu như không thể thấy chúng xuất hiện trong bất kỳ cuốn sách, bài báo, tác phẩm nào của Trung Quốc, v.v.

tất cả các ký tự ở đây có một ký tự tiếng Trung giống với glyph tương ứng. Chẳng hạn như 金 (U + F90A) và 金 (U + 91D1), chúng giống hệt nhau trong Glyph.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

Các ký hiệu liên quan đến CJK

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • một số khối như Jamo tương thích Hangul bị bỏ qua vì không liên quan đến tiếng Trung.
  • Khang Hy Radicals không phải là ký tự Trung Quốc, nó là thành phần đồ họa của một miệng núi lửa Trung Quốc, nó được sử dụng đặc biệt để thể hiện các cấp tiến,. Ví dụ: ⼻ (U + 2F3B) và 彳 (U + 5F73), ⻜ (U + 2EDC) và 飞 (U + 98DE)

Các dấu câu phổ biến khác xuất hiện trong tiếng Trung

Đây là một phạm vi rộng, một số dấu câu có thể không bao giờ được sử dụng, một số dấu câu như ……”“được sử dụng rất nhiều trong tiếng Trung Quốc.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Ngoài ra còn có nhiều biểu tượng liên quan đến tiếng Trung Quốc, chẳng hạn như Biểu tượng Quẻ Yijing hoặc Kanbun , nhưng dù sao thì nó cũng lạc đề. Tôi viết các ký tự không phải tiếng Trung trong CJK để giải thích rõ hơn về các ký tự Trung Quốc là gì. Và các phạm vi trên đã bao gồm hầu hết tất cả các ký tự xuất hiện trong văn viết của Trung Quốc ngoại trừ toán học và các ký hiệu đặc biệt khác.

Bổ sung

Ký hiệu CJK và Dấu câu

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Dạng nửa băng thông và dạng toàn băng thông

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Tham khảo

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (bằng tiếng Trung, lưu ý thanh bên phải)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (lưu ý bảng dưới cùng)
  3. http://www.unicode.org

2

Các khối mã Unicode mà các câu trả lời khác đưa ra chắc chắn bao gồm hầu hết các ký tự Unicode của Trung Quốc, nhưng hãy kiểm tra một số khối mã khác này.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Xem cuộc thảo luận đầy đủ hơn của tôi ở đây . Và trang này thuận tiện cho việc duyệt Unicode.


1

Tóm lại, có vẻ như chúng là:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.