各种编码总结

关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了
1. ASCII和Ansi编码
    字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为
    单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码.
    双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码.
前者即为ASCII编码，后者对应ANSI.
至于简体中文编码GB2312，实际上它是ＡＮＳＩ的一个代码页936
DBCS是亚洲的字符集，包含了ANSI，ANSI也就是ASCII值为0-255之间的字符，当字符为ANSI时，存放于文件中占用的是一个字节。
2. Unicode
　如上，ANSI有很多代码页，使用不同代码页的内码无法在其他代码也正常显示，这就是为什么日文版／繁体中文版游戏无法在简体中文平台直接显示的原因．
    Unicode也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案．它是一种２字节编码，能够提供６５５３６个字符，这个数字是不够表示所有的字符的（汉语就有５５０００多字符），所以，通过一个代理对的机制来实现附加的９１７，４７６个字符表示，以达到所有字符都具有唯一编码．UNICODE是世界性的字符集，几乎包含了世界上的所有字符，每个字符都有一个单一的UNICODE值。UNICODE值也是占用两个字节的。但不同的是它虽然也包含了标准的ANSI字符值，但是ANSI字符只占用一个字节，UNICODE会自动在ANSI值后加入一个值为0的字节。比如说一个 ANSI值为&h45的字符，以UNICODE形式存放则为"45 00"。
UNICODE的意义在于能让不同环境下的操作系统识别。比如说吧，你在中文的操作系统下使用记事本写了一篇文本文章。但你要拿到别的环境下的WIN2K（之所以选WIN2K，是因为WIN2K支持UNICODE，否则用WIN98只能用外接中文平台才能查看）下查看（比如美国的电脑，操作系统为英文，代码页也是美国（WIN2K有设置代码页）），即使该电脑已经安装了中文字体，即使用WORD这样的编辑软件打开也肯定是乱码一堆。这是为什么呢？因为英文的WIN2K操作系统只能识别UNICODE呀！并不能识别咱们亚洲的DBCS码呀！解决方法只要你把它转换为UNICODE码存放就OK了
３．Unicode和BigEndianUnicode
    这两者只是存储顺序不同，如＂A＂的unicode编码为65 00
    其BigEndianUnicode编码为00 65

4. UTF-8

这是为传输而设计的编码，其系列还有UTF-7和UTF-16
其中UTF-16和Unicode编码大致一样, UTF-8就是以8位为单元对Unicode进行编码。从Unicode到UTF-8的编码方式如下：
　　　　　Unicode编码(16进制)　　　　　　UTF-8 字节流(二进制)
　　　　　0000 - 007F　　　　　　　　　0xxxxxxx
　　　　　0080 - 07FF　　　　　　　　　110xxxxx 10xxxxxx
　　　　　0800 - FFFF　　　　　　　　　1110xxxx 10xxxxxx 10xxxxxx

　　例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

posted on 2009-07-21 10:59 菡子阅读(1102) 评论(0) 编辑收藏举报