一、标准内容简介
1、GB 2312
2、GB13000(附:Unicode规范)
3、GBK与GB18030-2000
2、GB13000(附:Unicode规范)
2.1、GB13000
为了便于多个文种的同时处理,国际标准化组织下属编码字符集工作组研制了新的编码字符集标准,ISO/IEC 10646。该标准第一次颁布是在1993年,当时只颁布了其第一部分,即ISO/IEC 10646.1: 1993,我国相应的国家标准是GB 13000.1-93《信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》。制定这个标准的目的是对世界上的所有文字统一编码,以实现世界上所有文字在计算机上的统一处理。
提到GB 13000(ISO/IEC 10646),顺便提到Unicode规范。Unicode规范可以被看作是GB 13000在产业界的翻版,是GB 13000以另一种形式在产业界的实现。施乐(Xerox)公司的专家Joseph D. Becker对Unicode的解释可以帮助我们理解GB 13000的意义,他说:Unicode这个名字意味着建立一个酪坏模╱nique)、统一的(unified)、通用的(universal)编码(体系)。
GB13000建立了一个全新的编码体系。ISO/IEC 10646被称作"多八位"编码字符集,是因为它采用四个"八位"(即8 bit或称作字节)编码。这四个字节被用来分别表示组、平面、行和字位。见下图:
GB2312规定的汉字为常用汉字,包括简化汉字三千余个。由于我国汉字数量巨大(约10万字),我国又陆续增加了六个辅助集。其中,基本集与第二、第四辅助集是简化汉字集,第一(即GB 12345)、第三、第五辅助集是繁体集,且基本集与第一、第二与第三、第四与第五辅助集分别有简、繁体字一一对应关系,(个别简、繁关系为一对多的汉字除外)。第七辅助集汉字的来源是GB13000.1的CJK统一汉字部分,为日本、韩国和台湾地区使用的汉字。七个字符集包含汉字共计约49,000字(简化字和繁体字分别编码)。
可以看出,GB13000的总编码位置高达2,147,483,648个(128组×256平面×256行×256字位)。目前实现的是00组的00平面,称为"基本多文种平面"(Basic Multilingual Plane, BMP),编码位置65536个。(由于基本多文种平面所有字符代码的前两个字节都是0(00组00平面XX行XX字位),因此,目前在默认情况下,基本多文种平面按照两字节处理。)
GB13000的优点和特点非常明显:
编码空间非常巨大,可以容纳多种文字同时编码,也就保证了多文种同时处理;
作为统一的编码,拉丁语系的文字与其它文字一样,都是采用相同数目的"八位"编码,即:都是四字节,在基本多文种平面,都是双字节;
注:对于GB1988(ISO646/ASCII)字符,直接增加高八位为0x00即可。
字符和字形的区分十分清楚:字符是负载文本内容的抽象实体,而字形则是可视的具体图形形式;
通过采用汉字认同规则,各国家/地区的汉字统一编码,既满足了各国家/地区对编码汉字数目的实际需求,又不至于由于汉字在基本多文种平面占据的码位过多而影响到其他文字的编码:
由于世界上的文字数量巨大,不可能将所有文字编码,为此,划定了专用区,供标准使用者实现其对未编码字符的特别需要。
其码位分配简图(GB13000.1-200X版)如下:
其中,CJK统一汉字和CJK统一汉字扩充A收录了GB2312和第一、三、五、七辅助集的全部汉字27,484个。康熙部首和中日韩补充部首共收录汉字部首369个。
此外,还收录了维哈克文(属于阿拉伯文体系)、朝鲜文、彝文、藏文和蒙古文。预计不久将增加傣文。
2.2、Unicode标准
Unicode 标准目前在基本平面上与GB 13000保持一致。采纳UTF-16方案作为未来实现01到0F共15个辅助平面的方式。其它方面与GB 13000基本一致。
Source: 工作文件