GB 18030介绍及其与相关标准的比较

一、标准内容简介
  1、GB 2312
  2、GB13000(附:Unicode规范)
  3、GBK与GB18030-2000

二、GB 18030的优点

3、GBK与GB18030-2000
3.1、GBK
  随着信息技术在各行业应用的深入,GB 2312收录汉字数量不足的缺点已经初步显露出来。例如:"镕"字现在是高频率使用字,而GB 2312却没有为它编码,因而,政府、新闻、出版、印刷等行业和部门在使用中感到十分不便。1995年,全世界大多数的PC操作系统都实现了16/32位。GB 13000.1的实现出现了一线曙光。一方面为了对GB 2312进行扩充,一方面顺应当时技术的发展向GB 13000.1推进,同时兼顾当时最广泛采用GB 2312内码系统。原电子部和原国家技术监督局联合颁布了指导性技术文件《汉字内码扩展规范》1.0版,即GBK。
  在汉字处理系统中,由于GB 2312需要经常性的使用转移序列规则,最广泛使用的实际是经过GB 2312+8080H移位后的内码模式。因为如不使用转义序列规则,GB2312规定的一个汉字字符的交换码用两个ASCII图形字符编码的表示方法,在我国最初的计算机上实现中西文信息兼容时会造成汉字内码与汉字交换码的不一致性。为解决这一问题,国内外推出了十多种计算机汉字内码制式,最常用的就是两字节内码制式,而在其中以高位为"1"的两字节内码应用最广(所以要移位8080H),它是把汉字交换码两字节高位置"1"而成,例如在CC-DOS系统中。台湾的CNS 11643、日本的JIS 0203等标准也是采用同样方式来实现。
  GBK在GB 2312内码系统的基础上进行了扩充,其内码空间为0x8140 ~ 0xFEFE,去除第二字节的0x7F(192个码位),总共23940个码位。它收录了GB 13000.1-1993的全部20902个CJK统一汉字,包括GB 2312的全部6763个汉字。此外,它增补编码了52个汉字,13个汉字结构符(在ISO/IEC 10646.1: 2000中称为表意文字描述符)和一些常用部首与汉字部件。在GBK的内码系统中,GB 2312汉字所在码位保持不便,这样,保证了GBK对GB 2312的完全兼容。同时,GBK内码与GB 13000.1代码一一对应,为GBK向GB 13000.1的转换提供了解决办法。
GBK码位空间见下图。
        第二字节

3.2、GB 18030
  1995年之后的实践表明,GBK作为行业规范,缺乏足够的强制力,不利于其本身的推广,而我们寄予厚望的GB 13000的实现又脚步缓慢,现有汉字编码字符集标准已经不能满足我国信息化建设的需要。在银行、交通、公安、户政、出版印刷、国土资源管理等行业,对新的、大型的汉字编码字符集标准的要求尤其迫切。
为此,原国家质量技术监督局和信息产业部组织专家制定发布了新的编码字符集标准,GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》。
  GB 18030的双字节部分完全采用了GBK的内码系统(参见GBK码位空间图)。在此基础上,做了四字节扩展,四个字节的编码空间依次是:0x81到0xFE,0x30到0x39,0x81到0xFE,0x30到0x39。总共1,587,600个码位。
GB 18030四字节码位空间图如下。

  第一、二字节结构
第三、四字节结构
四字节总体结构

  这样,GB 18030的编码空间达到了总共23,940 + 1,587,600。它不仅可以收录我们需要的全部汉字,而且还有充足的空间收录我国少数民族文字。在2000年版中,GB 18030收录了ISO/IEC 10646.1: 2000的全部27,484个CJK统一汉字,13个表意文字描述符、部分汉字部首和部件、欧元符号。
  在编码体系上,GB 18030统一了内码和交换码的概念。它完全兼容GB 2312和GBK的编码体系,继承GBK的代码映射表的优点,解决了GB 18030和GB 13000之间的代码转换。

Source: 工作文件

posted on 2007-02-28 16:23  Joey Liang  阅读(2253)  评论(0编辑  收藏  举报