GB18030的相关介绍

 

GB18030-2000编码标

GB18030-2000编码标

GB18030-2000编码标准是由信息产业部和国家量技术监督局在2000 317布的,并且将作国家准在明年的1月正式

1.概述

GB18030-2000编码标准是在原来的 GB2312-1980 编码标准和 GBK 编码标准的基,增加了四字部分的编码。它可以完全映射ISO10646的基本平面和所有助平面,共有150多万个。在ISO10646的基本平面内,它在原来的2万多字的基上增加了7000 多个字的位和字型,从而使基本平面的字到达 27000多个。它的主要目的是了解决一些生、偏、字的问题,以及适出版、金融、地理信息系等迫切需要的人名、地名用字问题

GB18030-2000GB2311体系的编码字符定了信息交用的形字符及其二编码的十六制表示。它支持 GB 13000.1-1993的全部中日(CJK)字字符和全部中日韩统Extension AExtension B的字符。

2.

GB18030-2000编码标准收的字符分、双字和四字节编码。下面要列一下它各自包括的内容

1) 部分

部分收GB113830x000x7E全部 128个字符及节编码的欧元符号

2) 双字部分

双字部分收的内容如下

GB13000.1的全部CJK字字符

GB13000.1CJK兼容区挑出来的21

GB13000.1中收GB2312未收的我国台湾地区使用的形字符139个;

GB13000.1的其它字符31个;

GB2312中的非字符号

GB12345点符号19个;

Gb2312未收10个小写罗马数字

Gb2312未收汉语拼音字母5个以及 ag

字数字“O”;

表意文字描述符13个;

补汉字和部首/构件80个;

双字节编码的欧元符号

3) 四字部分

四字部分收了上述双字字符之外的,包括 CJK A 在内的 GB13000.1 中的全部字符。

3.编码规则

GB18030-2000准采用、双字和四字方式字符编码部分采用GB 11383编码结构与规则,使用 0x000x80。双字部分采用两个字表示一个字符,其首字节码位从 0x810xFE,尾字节码位分0x400x7E0x800xFE。四字部分第一、三字0x81~0xFE,第二、四字采用GB 11383未使用的0x300x39为对双字节编码扩充的后这样扩充的四字节编码,其范围为0x81308130 0xFE39FE39位范分配如下表所示

四字字符的编码自第四个字节开编码码 0x300x39;其次是第三个字编码码0x810xFE;再次是第二个字编码码0x300x39;最后是第一个字编码码0x810xFE。即:

posted @ 2008-03-17 10:18  荖K  阅读(1287)  评论(0编辑  收藏  举报