中日韩统一表意文字(CJK Unified Ideographs)[转]
中日韩统一表意文字
中日韩统一表意文字中日韩统一表
意文字(英语:CJK Unified
Ideographs),目的是要把分别来自中文、日文、韩文、越文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国
独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。
越南文后来加入此计划,所以亦有 CJKV (中日韩越统一表意文字)的称呼。Unicode亦开始收录其仿汉字——喃字
版本 ISO 10646 版本Unicode 版本新增置放平面字数累计字数19931.0 中日韩统一表意文字基本多文种平面(BMP)20,90220,914位于“表意文字兼容区”中但实则独一的汉字基本多文种平面1220003.0中日韩 统一表意文字扩展A区基本多文种平面6,58227,49620013.1中日韩统一表意文字扩展B区表意文字补充平面(SIP) 42,71170,2072003第一修订版4.1HKSCS-2004 及 GB 18030-2000 中仍未加入 ISO 10646 的汉字基本多文种平面2270,229未有6.0(预计)中日韩统一表意文字扩展C区表意文字补充平面(预计)4,25174,480
历史
于1990年代初ISO 10646制订时,来自台湾的代表提出将源自中国的中日韩汉字予以统一(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。
字源
最初期统一汉字
最初期的统一汉字(20,902字)字源来自以下字集:
中国大陆的G源
G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58个香港字和2个吏读字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
台湾的T源
T1:CNS 11643-1986第一字面:5,401+9字(含9个计量用汉字)
T2:CNS 11643-1986第二字面:7,650字
TE:CNS 11643-1986第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字)
日本的J源
J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字
韩国的K源
K0:KS C 5601-87:4,888字(含268个重见字)
K1:KS C 5657-91:2,856字
以上的来源字集会实施字源分离原则。
另外还有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。
很多人以为20,902统一汉字中来自台湾的只是Big5的一万三千多字,其实不然。
扩展A区
扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。相比起最初期统一汉字,扩展A区多了来自多个来自中国大陆、台湾、新加坡等汉字。
这一节是一个小作品。欢迎您积极编辑或修订扩充其内容。
扩展B区
扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:
CNS 11643的第4平面到第15平面所收录的30,177个汉字;
在《汉语大字典》中出现的28,914个未收录汉字;
在《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现汉字);
在北朝鲜的国家标准所收录的5,642个汉字;
在越南的国家标准所收录的4,232个字喃;
HKSCS中出现的1,081个未收录汉字;
《汉语大词典》中出现的553个未收录汉字;
《四库全书》中出现的522个未收录汉字;
日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;
1980年代版本的《辞海》中出现的247个未收录汉字;
大韩民国PKS 5700-3:1998中出现的166个未收录汉字;
《中国大百科全书》中出现的86个未收录汉字;
《辞源》中出现的66个未收录汉字;
北大方正排版系统中出现的65个未收录汉字;
这堆汉字中重复的汉字有不少,所以经过整理之后,总数实际上只有42,711个汉字。
另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。
Unicode 4.1汉字
为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。
扩展C区按计划,中日韩统一表意文字扩展C区将收录4,251个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。
字源分离原则
字源分离原则字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。
由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇、中国大陆作点、日本作横,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各 种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。
例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。于是,字源分离原则因而诞生。
字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。
已统一的汉字原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是阁下电脑提供的字型,未必代表该地区的标准写法)。
例子:
注:不是所有浏览器均可分辨“中文-香港”(zh-hk)此一HTML的语言代码(Language Code)并使用不同的字形。如阁下看到的字形和中国大陆的字形一样,表示阁下的浏览器不能分辨此标签。截至2005年6月,只有Firefox和 Mozilla浏览器支援此标签。详见Test results: Automatic font assignment for CJK text。
没有统一的汉字有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由“把不正统的编入位于基本多 文种平面的‘兼容表意文字区’(Compatibility Ideographs)”起废弃,原因是CNS中有太多字形非常接近,按 Unicode 标准应该统一的字。这些字只有正统的会编入正式字集(包括扩展A、B、C区)中,不正统的编入位于“第二辅助平面”的“兼容表意文字补充区” (Compatibility Ideographs Supplement)中。
以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分离原则文件之中有的字。
注:以上内容来自中文维基百科
CJKVCJKV,是汉语、日语、韩语(朝鲜语)、越南语(Chinese-Japanese-Korean-Vietnamese)的省略,是汉字文化 圈内的这4种语言共同使用的汉字(包含越南的喃字、越文汉字、韩文汉字和日文汉字),以及朝鲜语谚文和日语平假名、片假名。这是有关计算机国际化、地域化 的字符编码的用语。CJKV的顺序是拉丁字母顺序。旧称CJK(即中日韩用字)。
对于较早废止汉字,而曾使用过汉字及本民族类汉字文字—喃字的越南语方块文字进入CJKV编码较晚。用语的使用频度以CJK较多。不过,随着越文汉字、喃字加入该计划,CJKV的称呼开始使用。
Unicode的CJK统一汉字,作为越南的文字编码规格的 TCVN 5773:1993 和 TCVN 6056:1995 与汉字(越文汉字、喃字)作为原规格也合并,实际状态是CJKV。譬如,“U+7551 畑”就是日本国字之“畑”(JIS X 0208-1990之482A)与越南喃字之“畑”(TCVN 5773:1993之3C2F)的统合。
越南文后来加入此计划,所以亦有 CJKV (中日韩越统一表意文字)的称呼。Unicode亦开始收录其仿汉字——喃字
版本 ISO 10646 版本Unicode 版本新增置放平面字数累计字数19931.0 中日韩统一表意文字基本多文种平面(BMP)20,90220,914位于“表意文字兼容区”中但实则独一的汉字基本多文种平面1220003.0中日韩 统一表意文字扩展A区基本多文种平面6,58227,49620013.1中日韩统一表意文字扩展B区表意文字补充平面(SIP) 42,71170,2072003第一修订版4.1HKSCS-2004 及 GB 18030-2000 中仍未加入 ISO 10646 的汉字基本多文种平面2270,229未有6.0(预计)中日韩统一表意文字扩展C区表意文字补充平面(预计)4,25174,480
历史
于1990年代初ISO 10646制订时,来自台湾的代表提出将源自中国的中日韩汉字予以统一(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。
字源
最初期统一汉字
最初期的统一汉字(20,902字)字源来自以下字集:
中国大陆的G源
G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58个香港字和2个吏读字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
台湾的T源
T1:CNS 11643-1986第一字面:5,401+9字(含9个计量用汉字)
T2:CNS 11643-1986第二字面:7,650字
TE:CNS 11643-1986第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字)
日本的J源
J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字
韩国的K源
K0:KS C 5601-87:4,888字(含268个重见字)
K1:KS C 5657-91:2,856字
以上的来源字集会实施字源分离原则。
另外还有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。
很多人以为20,902统一汉字中来自台湾的只是Big5的一万三千多字,其实不然。
扩展A区
扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。相比起最初期统一汉字,扩展A区多了来自多个来自中国大陆、台湾、新加坡等汉字。
这一节是一个小作品。欢迎您积极编辑或修订扩充其内容。
扩展B区
扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:
CNS 11643的第4平面到第15平面所收录的30,177个汉字;
在《汉语大字典》中出现的28,914个未收录汉字;
在《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现汉字);
在北朝鲜的国家标准所收录的5,642个汉字;
在越南的国家标准所收录的4,232个字喃;
HKSCS中出现的1,081个未收录汉字;
《汉语大词典》中出现的553个未收录汉字;
《四库全书》中出现的522个未收录汉字;
日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;
1980年代版本的《辞海》中出现的247个未收录汉字;
大韩民国PKS 5700-3:1998中出现的166个未收录汉字;
《中国大百科全书》中出现的86个未收录汉字;
《辞源》中出现的66个未收录汉字;
北大方正排版系统中出现的65个未收录汉字;
这堆汉字中重复的汉字有不少,所以经过整理之后,总数实际上只有42,711个汉字。
另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。
Unicode 4.1汉字
为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。
扩展C区按计划,中日韩统一表意文字扩展C区将收录4,251个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。
字源分离原则
字源分离原则字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。
由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇、中国大陆作点、日本作横,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各 种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。
例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。于是,字源分离原则因而诞生。
字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。
已统一的汉字原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是阁下电脑提供的字型,未必代表该地区的标准写法)。
例子:
Unicode | 中文 | 日文 | 韩文 | ||
中国大陆 | 台湾 | 香港 | |||
U+6D2A | 港 | 港 | 港 | 港 | 港 |
U+6F22 | 漢 | 漢 | 漢 | 漢 | 漢 |
U+76F4 | 直 | 直 | 直 | 直 | 直 |
U+7A97 | 窗 | 窗 | 窗 | 窗 | 窗 |
U+89D2 | 角 | 角 | 角 | 角 | 角 |
U+8D77 | 起 | 起 | 起 | 起 | 起 |
U+9AA8 | 骨 | 骨 | 骨 | 骨 | 骨 |
注:不是所有浏览器均可分辨“中文-香港”(zh-hk)此一HTML的语言代码(Language Code)并使用不同的字形。如阁下看到的字形和中国大陆的字形一样,表示阁下的浏览器不能分辨此标签。截至2005年6月,只有Firefox和 Mozilla浏览器支援此标签。详见Test results: Automatic font assignment for CJK text。
没有统一的汉字有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由“把不正统的编入位于基本多 文种平面的‘兼容表意文字区’(Compatibility Ideographs)”起废弃,原因是CNS中有太多字形非常接近,按 Unicode 标准应该统一的字。这些字只有正统的会编入正式字集(包括扩展A、B、C区)中,不正统的编入位于“第二辅助平面”的“兼容表意文字补充区” (Compatibility Ideographs Supplement)中。
以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分离原则文件之中有的字。
Unicode | 字 | Unicode | 字 | Unicode | 字 |
U+4E1F | 丟 | U+4E22 | 丢 | ||
U+4E48 | 么 | U+5E7A | 幺 | ||
U+4E89 | 争 | U+722D | 爭 | ||
U+4EDE | 仞 | U+4EED | 仭 | ||
U+4F75 | 併 | U+5002 | 倂 | ||
U+4FA3 | 侣 | U+4FB6 | 侶 | ||
U+4FC1 | 俁 | U+4FE3 | 俣 | ||
U+4FDE | 俞 | U+516A | 兪 | ||
U+4FF1 | 俱 | U+5036 | 倶 | ||
U+5024 | 値 | U+503C | 值 | ||
U+5077 | 偷 | U+5078 | 偸 | ||
U+507D | 偽 | U+50DE | 僞 | ||
U+514C | 兌 | U+5151 | 兑 | ||
U+514E | 兎 | U+5154 | 兔 | ||
U+5156 | 兖 | U+5157 | 兗 | ||
U+518A | 冊 | U+518C | 册 | ||
U+51C0 | 净 | U+51C8 | 凈 | ||
U+51E2 | 凢 | U+51E3 | 凣 | ||
U+5203 | 刃 | U+5204 | 刄 | ||
U+520A | 刊 | U+520B | 刋 | ||
U+5220 | 删 | U+522A | 刪 | ||
U+5225 | 別 | U+522B | 别 | ||
U+5238 | 券 | U+52B5 | 劵 | ||
U+5239 | 刹 | U+524E | 剎 | ||
U+524F | 剏 | U+5259 | 剙 | ||
U+525D | 剝 | U+5265 | 剥 | ||
U+5292 | 劒 | U+5294 | 劔 | ||
U+52FB | 勻 | U+5300 | 匀 | ||
U+5355 | 单 | U+5358 | 単 | ||
U+5373 | 即 | U+537D | 卽 | ||
U+5377 | 卷 | U+5DFB | 巻 | ||
U+53C1 | 叁 | U+53C2 | 参 | ||
U+53C3 | 參 | U+53C4 | 叄 | ||
U+5415 | 吕 | U+5442 | 呂 | ||
U+541E | 吞 | U+5451 | 呑 | ||
U+5433 | 吳 | U+5434 | 吴 | U+5449 | 呉 |
U+5436 | 吶 | U+5450 | 呐 | ||
U+543F | 吿 | U+544A | 告 | ||
U+5527 | 唧 | U+559E | 喞 | ||
U+55A9 | 喩 | U+55BB | 喻 | ||
U+5618 | 嘘 | U+5653 | 噓 | ||
U+568F | 嚏 | U+5694 | 嚔 | ||
U+56EF | 囯 | U+56FD | 国 | ||
U+5708 | 圈 | U+570F | 圏 | ||
U+570E | 圎 | U+5713 | 圓 | ||
U+5716 | 圖 | U+5717 | 圗 | ||
U+5759 | 坙 | U+5DE0 | 巠 | ||
U+57D2 | 埒 | U+57D3 | 埓 | ||
U+5848 | 塈 | U+588D | 墍 | ||
U+5861 | 塡 | U+586B | 填 | ||
U+5897 | 増 | U+589E | 增 | ||
U+58EE | 壮 | U+58EF | 壯 | ||
U+58FD | 壽 | U+5900 | 夀 | ||
U+5910 | 夐 | U+657B | 敻 | ||
U+5932 | 夲 | U+672C | 本 | ||
U+5965 | 奥 | U+5967 | 奧 | ||
U+5968 | 奨 | U+596C | 奬 | U+734E | 獎 |
U+5986 | 妆 | U+599D | 妝 | ||
U+598D | 妍 | U+59F8 | 姸 | ||
U+59CD | 姍 | U+59D7 | 姗 | ||
U+59EB | 姫 | U+59EC | 姬 | ||
U+5A1B | 娛 | U+5A2F | 娯 | U+5A31 | 娱 |
U+5A55 | 婕 | U+5AAB | 媫 | ||
U+5A7E | 婾 | U+5AAE | 媮 | ||
U+5AAA | 媪 | U+5ABC | 媼 | ||
U+5AAF | 媯 | U+5B00 | 嬀 | ||
U+5B0E | 嬎 | U+5B14 | 嬔 | ||
U+5B24 | 嬤 | U+5B37 | 嬷 | ||
U+5B73 | 孳 | U+5B76 | 孶 | ||
U+5BAB | 宫 | U+5BAE | 宮 | ||
U+5BDB | 寛 | U+5BEC | 寬 | ||
U+5BDC | 寜 | U+5BE7 | 寧 | ||
U+5BDD | 寝 | U+5BE2 | 寢 | ||
U+5C02 | 専 | U+5C08 | 專 | ||
U+5C06 | 将 | U+5C07 | 將 | ||
U+5C13 | 尓 | U+5C14 | 尔 | ||
U+5C19 | 尙 | U+5C1A | 尚 | ||
U+5C2A | 尪 | U+5C2B | 尫 | ||
U+5C36 | 尶 | U+5C37 | 尷 | ||
U+5C4F | 屏 | U+5C5B | 屛 | ||
U+5CE5 | 峥 | U+5D22 | 崢 | ||
U+5DD3 | 巓 | U+5DD4 | 巔 | ||
U+5E21 | 帡 | U+5E32 | 帲 | ||
U+5E2F | 帯 | U+5E36 | 帶 | ||
U+5E76 | 并 | U+5E77 | 幷 | ||
U+5EC4 | 廄 | U+5ECF | 廏 | ||
U+5F11 | 弑 | U+5F12 | 弒 | ||
U+5F37 | 強 | U+5F3A | 强 | ||
U+5F39 | 弹 | U+5F3E | 弾 | ||
U+5F50 | 彐 | U+5F51 | 彑 | ||
U+5F54 | 彔 | U+5F55 | 录 | ||
U+5F59 | 彙 | U+5F5A | 彚 | ||
U+5F5B | 彛 | U+5F5C | 彜 | ||
U+5F5D | 彝 | U+5F5E | 彞 | ||
U+5F65 | 彥 | U+5F66 | 彦 | ||
U+5FB3 | 徳 | U+5FB7 | 德 | ||
U+5FB4 | 徴 | U+5FB5 | 徵 | ||
U+6075 | 恵 | U+60E0 | 惠 | ||
U+6085 | 悅 | U+60A6 | 悦 | ||
U+609E | 悞 | U+60AE | 悮 | ||
U+60B3 | 悳 | U+60EA | 惪 | ||
U+6120 | 愠 | U+614D | 慍 | ||
U+613C | 愼 | U+614E | 慎 | ||
U+6229 | 戩 | U+622C | 戬 | ||
U+622F | 戯 | U+6231 | 戱 | ||
U+6236 | 戶 | U+6237 | 户 | U+6238 | 戸 |
U+623B | 戻 | U+623E | 戾 | ||
U+629B | 抛 | U+62CB | 拋 | ||
U+629C | 抜 | U+62D4 | 拔 | ||
U+6329 | 挩 | U+635D | 捝 | ||
U+633F | 挿 | U+63D2 | 插 | U+63F7 | 揷 |
U+634F | 捏 | U+63D1 | 揑 | ||
U+635C | 捜 | U+641C | 搜 | ||
U+63B2 | 掲 | U+63ED | 揭 | ||
U+63FA | 揺 | U+6416 | 搖 | U+6447 | 摇 |
U+63FE | 揾 | U+6435 | 搵 | ||
U+6483 | 撃 | U+64CA | 擊 | ||
U+654E | 敎 | U+6559 | 教 | ||
U+6553 | 敓 | U+655A | 敚 | ||
U+65E2 | 既 | U+65E3 | 旣 | ||
U+6602 | 昂 | U+663B | 昻 | ||
U+665A | 晚 | U+6669 | 晩 | ||
U+66A8 | 暨 | U+66C1 | 曁 | ||
U+66FD | 曽 | U+66FE | 曾 | ||
U+67B4 | 枴 | U+67FA | 柺 | ||
U+67E5 | 查 | U+67FB | 査 | ||
U+67F5 | 柵 | U+6805 | 栅 | ||
U+68B2 | 梲 | U+68C1 | 棁 | ||
U+6961 | 楡 | U+6986 | 榆 | ||
U+6982 | 概 | U+69EA | 槪 | ||
U+6985 | 榅 | U+69B2 | 榲 | ||
U+699D | 榝 | U+6A27 | 樧 | ||
U+69C7 | 槇 | U+69D9 | 槙 | ||
U+69D8 | 様 | U+6A23 | 樣 | ||
U+6A2A | 横 | U+6A6B | 橫 | ||
U+6B65 | 步 | U+6B69 | 歩 | ||
U+6B72 | 歲 | U+6B73 | 歳 | ||
U+6B7F | 歿 | U+6B81 | 殁 | ||
U+6BBB | 殻 | U+6BBC | 殼 | ||
U+6BC0 | 毀 | U+6BC1 | 毁 | ||
U+6BCE | 毎 | U+6BCF | 每 | ||
U+6C32 | 氲 | U+6C33 | 氳 | ||
U+6C5A | 汚 | U+6C61 | 污 | ||
U+6C92 | 沒 | U+6CA1 | 没 | ||
U+6D44 | 浄 | U+6DE8 | 淨 | ||
U+6D89 | 涉 | U+6E09 | 渉 | ||
U+6D97 | 涗 | U+6D9A | 涚 | ||
U+6D99 | 涙 | U+6DDA | 淚 | ||
U+6DE5 | 淥 | U+6E0C | 渌 | ||
U+6DF8 | 淸 | U+6E05 | 清 | ||
U+6E07 | 渇 | U+6E34 | 渴 | ||
U+6E29 | 温 | U+6EAB | 溫 | ||
U+6E88 | 溈 | U+6F59 | 潙 | ||
U+6E89 | 溉 | U+6F11 | 漑 | ||
U+6EDA | 滚 | U+6EFE | 滾 | ||
U+6F5B | 潛 | U+6FF3 | 濳 | ||
U+7028 | 瀨 | U+702C | 瀬 | ||
U+70BA | 為 | U+7232 | 爲 | ||
U+712D | 焭 | U+7162 | 煢 | ||
U+7155 | 煕 | U+7199 | 熙 | ||
U+7174 | 煴 | U+7185 | 熅 | ||
U+72B6 | 状 | U+72C0 | 狀 | ||
U+7464 | 瑤 | U+7476 | 瑶 | ||
U+74F6 | 瓶 | U+7501 | 甁 | ||
U+7522 | 產 | U+7523 | 産 | ||
U+75E9 | 痩 | U+7626 | 瘦 | ||
U+76A1 | 皡 | U+76A5 | 皥 | ||
U+771E | 眞 | U+771F | 真 | ||
U+773E | 眾 | U+8846 | 衆 | ||
U+7814 | 研 | U+784F | 硏 | ||
U+797F | 祿 | U+7984 | 禄 | ||
U+79BF | 禿 | U+79C3 | 秃 | ||
U+7A05 | 稅 | U+7A0E | 税 | ||
U+7A42 | 穂 | U+7A57 | 穗 | ||
U+7B5D | 筝 | U+7B8F | 箏 | ||
U+7BB3 | 箳 | U+7C08 | 簈 | ||
U+7BE1 | 篡 | U+7C12 | 簒 | ||
U+7CA4 | 粤 | U+7CB5 | 粵 | ||
U+7D55 | 絕 | U+7D76 | 絶 | ||
U+7DA0 | 綠 | U+7DD1 | 緑 | ||
U+7DD2 | 緒 | U+7DD6 | 緖 | ||
U+7DE3 | 緣 | U+7E01 | 縁 | ||
U+7DFC | 緼 | U+7E15 | 縕 | ||
U+7E48 | 繈 | U+7E66 | 繦 | ||
U+7FAE | 羮 | U+7FB9 | 羹 | ||
U+7FF6 | 翶 | U+7FFA | 翺 | ||
U+80FC | 胼 | U+8141 | 腁 | ||
U+812B | 脫 | U+8131 | 脱 | ||
U+817D | 腽 | U+8183 | 膃 | ||
U+8203 | 舃 | U+8204 | 舄 | ||
U+820D | 舍 | U+820E | 舎 | ||
U+8216 | 舖 | U+8217 | 舗 | ||
U+8358 | 荘 | U+838A | 莊 | ||
U+83D1 | 菑 | U+8458 | 葘 | ||
U+8480 | 蒀 | U+8495 | 蒕 | ||
U+848B | 蒋 | U+8523 | 蔣 | ||
U+848D | 蒍 | U+853F | 蔿 | ||
U+8570 | 蕰 | U+8580 | 薀 | ||
U+85AB | 薫 | U+85B0 | 薰 | ||
U+85F4 | 藴 | U+860A | 蘊 | ||
U+865A | 虚 | U+865B | 虛 | ||
U+86FB | 蛻 | U+8715 | 蜕 | ||
U+885B | 衛 | U+885E | 衞 | ||
U+886E | 衮 | U+889E | 袞 | ||
U+88C5 | 装 | U+88DD | 裝 | ||
U+8A2E | 訮 | U+8A7D | 詽 | ||
U+8AAA | 說 | U+8AAC | 説 | ||
U+8ACC | 諌 | U+8AEB | 諫 | ||
U+8B20 | 謠 | U+8B21 | 謡 | ||
U+8C5C | 豜 | U+8C63 | 豣 | ||
U+8D70 | 走 | U+8D71 | 赱 | ||
U+8EFF | 軿 | U+8F27 | 輧 | ||
U+8F1C | 輜 | U+8F3A | 輺 | ||
U+8F3C | 輼 | U+8F40 | 轀 | ||
U+8FBE | 达 | U+8FD6 | 迖 | ||
U+8FF8 | 迸 | U+902C | 逬 | ||
U+9059 | 遙 | U+9065 | 遥 | ||
U+90A2 | 邢 | U+90C9 | 郉 | ||
U+90CE | 郎 | U+90DE | 郞 | ||
U+90F7 | 郷 | U+9109 | 鄉 | U+9115 | 鄕 |
U+9196 | 醖 | U+919E | 醞 | ||
U+91A4 | 醤 | U+91AC | 醬 | ||
U+9203 | 鈃 | U+9292 | 銒 | ||
U+92B3 | 銳 | U+92ED | 鋭 | ||
U+9304 | 錄 | U+9332 | 録 | ||
U+932C | 錬 | U+934A | 鍊 | ||
U+93AD | 鎭 | U+93AE | 鎮 | ||
U+95B1 | 閱 | U+95B2 | 閲 | ||
U+9667 | 陧 | U+9689 | 隉 | ||
U+9751 | 靑 | U+9752 | 青 | ||
U+9759 | 静 | U+975C | 靜 | ||
U+976D | 靭 | U+9771 | 靱 | ||
U+9839 | 頹 | U+983D | 頽 | ||
U+984F | 顏 | U+9854 | 顔 | ||
U+985A | 顚 | U+985B | 顛 | ||
U+98EE | 飮 | U+98F2 | 飲 | ||
U+9905 | 餅 | U+9920 | 餠 | ||
U+99B1 | 馱 | U+99C4 | 駄 | ||
U+99E2 | 駢 | U+9A08 | 騈 | ||
U+9AA9 | 骩 | U+9AAB | 骫 | ||
U+9AD8 | 高 | U+9AD9 | 髙 | ||
U+9AEA | 髪 | U+9AEE | 髮 | ||
U+9B2C | 鬬 | U+9B2D | 鬭 | ||
U+9C1B | 鰛 | U+9C2E | 鰮 | ||
U+9CEF | 鳯 | U+9CF3 | 鳳 | ||
U+9D87 | 鶇 | U+9DAB | 鶫 | ||
U+9DC6 | 鷆 | U+9DCF | 鷏 | ||
U+9EAA | 麪 | U+9EAB | 麫 | ||
U+9EBC | 麼 | U+9EBD | 麽 | ||
U+9EC3 | 黃 | U+9EC4 | 黄 | ||
U+9ED1 | 黑 | U+9ED2 | 黒 |
注:以上内容来自中文维基百科
CJKVCJKV,是汉语、日语、韩语(朝鲜语)、越南语(Chinese-Japanese-Korean-Vietnamese)的省略,是汉字文化 圈内的这4种语言共同使用的汉字(包含越南的喃字、越文汉字、韩文汉字和日文汉字),以及朝鲜语谚文和日语平假名、片假名。这是有关计算机国际化、地域化 的字符编码的用语。CJKV的顺序是拉丁字母顺序。旧称CJK(即中日韩用字)。
对于较早废止汉字,而曾使用过汉字及本民族类汉字文字—喃字的越南语方块文字进入CJKV编码较晚。用语的使用频度以CJK较多。不过,随着越文汉字、喃字加入该计划,CJKV的称呼开始使用。
Unicode的CJK统一汉字,作为越南的文字编码规格的 TCVN 5773:1993 和 TCVN 6056:1995 与汉字(越文汉字、喃字)作为原规格也合并,实际状态是CJKV。譬如,“U+7551 畑”就是日本国字之“畑”(JIS X 0208-1990之482A)与越南喃字之“畑”(TCVN 5773:1993之3C2F)的统合。
posted on 2008-04-24 10:26 hunter_gio 阅读(8365) 评论(0) 编辑 收藏 举报