图解编码基础

2012-01-12 18:46 海不是蓝阅读(2233) 评论(11) 编辑收藏举报

远古时代：ascii

A long time ago，米国童鞋想打字了，于是就有了ascii码。

ascii码的一个字是8位(一个字节，8个二进制)，但是只用后7位(0-127),

英语中一般的字符以及数字、字母；剩下最高位1比特被用作一些通讯系统的奇偶校验。

输出下ascii码

for (byte i = 0; i <= 127; i++)

{

Console.Write("{0}-0x{0:x}:{1}{2}", i, (char)i, (i + 1) % 4 == 0 ? "\n" : " ");

}

注意：0x0是nul，代表结束标志'\0'。（修改：之前这里写的是NULL，多谢peerben童鞋的指出。）

可怕的事情发生了：OEM字符集的衍生

米国童鞋愤怒了：“我受够了每天都只能打这128个字符！不！是127个，第一个什么也不是。啊。。。你妹啊！”。

so!一些不乖的童鞋开始打歪主意了！

一个字节能够表示的数字（编号）有256个，而ASCII字符只用到了0x00~0x7F，也就是占用了前128个，后面128个数字不用白不用！

这些童鞋各自有各自的想法，这就导致了当时销往世界各地的机器上出现了大量各式各样的OEM字符集。

东方国度也开始用电脑啦：多字节字符集（MBCS）和中文字符集

时代在进步，东方的国度也开始用电脑了。

对于欧美国家的童鞋来说，也许ascii足够了，但是对于东方国度，这256个字符远远不够的。

但是东方的人民是无敌的！很快变发明了多字节编码方式。例如中国使用的就是双字节字符集编码。

继续进步！中国的汉字

中国童鞋们的汉字系统是博大精深，数量也是比26个字母多了不知道多少倍，但是一切困难在中国童鞋面前都是纸老虎！是纸老虎！

GB2312

用于简体中文，一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

繁体古文怎么办？big5

用于繁体中文，

56个民族是一家！GBK1.0和GB18030

GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。

2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。从汉字字汇上说，GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字（Unicode码0x3400-0x4db5），一共收录了27484个汉字。