BG2312 GB13000 GBK GB18030 简介

GB2312

  GB2312我国1980年制定的汉子编码规范 为7位双字节编码(共128*128),为了避开ASCII编码中的控制字符(0~31和127)以及空格符(32),最后只剩下94位可用,遵循ISO 2022标准的编码方案都是如此。但是后来发现虽然包含了大部分的常用汉子,但是中国汉字文化,博大精深,很快就发现很多汉字不支持,不够我们使用了。

GB13000

  因为GB2312的这些问题,国家标准化委员会又制定了GB13000,GB13000制定的原则与GB2312不同,GB13000以国际化为目标, 该标准编码参照了Unicode 2.0 标准编码,与GB2312完全不兼容,因早期的计算机中的汉卡采用了GB2312,无法顺利向GB13000过渡,所以GB13000变成了一个纸面上的 标准,无法推广.......

GBK

  所以我们改进之后,国家标准化委员会制定了GBK标准,他兼容GB2312标准,同时在GB2312标准的基础上扩展了GB13000包含的字,可以说是承上启下,编码修改后一经推出,就被WINDOWS95所采用,可以说是windows帮助了GBK的推广。其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,

GBK编码分为三大部分:

1. 汉字区。包括:
  a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个,按原顺序排列。
  b. GB 13000.1 扩充汉字区。包括:
    (1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。
    (2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前,按 UCS 代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。
    (3) 汉字“〇”安排在图形符号区GBK/5:A996。

2. 图形符号区。包括:
  a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外,还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。
  b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“〇”排列在此区。计符号 166 个。

3. 用户自定义区:分为a.b.c三个小区。
  a. AAA1-AFFE,码位 564 个。
  b. F8A1-FEFE,码位 658 个。
  c. A140-A7A0,码位 672 个。
  第c区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。

 

GB18030

  GBK之后又有GB18030标准,2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码,兼容GBK和GB2312字符集。因GB18030较GBK又多了几千汉字,码位不足,GB18030使用了2byte与4byte混合编码方式,这又给软件增加了难题,所以虽然GB18030推出了很久,仍然没有得到广泛应用。

posted @ 2018-04-26 10:45  虚幻的光荣椿  阅读(1367)  评论(0编辑  收藏  举报