未名Q

此生若能得幸福安稳,谁又愿颠沛流离。

  :: 首页 :: 博问 :: 闪存 :: 新随笔 :: :: 订阅 订阅 :: 管理 ::

GB2312

GB 2312-80 ,全称《信息交换用汉字编码字符集·基本集》,由中国国家标准总局发布,1981年5月1日实施。

GB2312共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符,也向下兼容 ASCII 字符码。

GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。

 

GB13000与GBK

这二个编码以及后来的GB18030,据传有一段微软参与的故事,让国家怒了,就把GB18030列为强制标准,不符合GB18030标准的计算机系统与产品均不得在中国销售。

 

1993年,Unicode 1.1 版本推出,收录中国大陆、台湾、日本及韩国通用字符集的汉字,总共有20,902个。(同年ISO组织发布了ISO/IEC 10646-1标准,ISO/IEC 10646与Unicode的异同请自行搜索。)
GB 13000.1-93《信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》则是等同于Unicode 1.1/ISO10646.1。

 

据传也向建议微软支持 GB13000 编码,但并没采用而是自己搞了一套标准(利用GB 2312-80未使用的编码空间,收录GB 13000.1-93 全部字符制定了GBK编码)。随微软的 Windows 95 和 Office 而流行成为事实标准,后国家把 GBK 公布为指导性文件,并非国家标准。由于GBK的成事实标准,原始的 GB13000 一直未被业界采用,后续的 GB18030 是对GBK兼容,而非GB13000。

GBK收录了21003个汉字,向下兼容 GB2312 编码;在Windows系统中GBK与GB2312均使用代码页CP936表示,只不过不同时间时CP936支持编码不一样;实际上GBK与CP936还是有些细小差别的,GBK比CP936多了95个字符。

 

GB18030

2000年公布了 GB18030-2000 国家标准,兼容 Unicode 3.0 中日韩统一表意文字,共收录27533个汉字;GB 18030-2005 更新至 Unicode 4.1 中日韩统一表意文字及增加少数民族文字,共收录70244个汉字。

由于是强制标准,所以境内所有软件产品必须支持;但没有要求嵌入式产品,所以手机/MP3一般只支持GB2312。

GB18030兼容GBK,在windows中的代码页是CP54936;

 

在 Windows 2K/XP/2K3 中使用GB18030(扩展A区的???)编码:GB18030 Support Package (简体中文版),在Windows 7中完美支持。

中文版 Windows XP SP3 的区域和语言选项中高级里,可以看到默认安装了GB10803,发现包括Office 2003也对GB18030支持不完美。

posted on 2010-07-14 21:35  未名Q  阅读(3618)  评论(0编辑  收藏  举报