字符编码 ASCII Unicode UTF-8

计算机中，用二进制0 1表示信息。每个表示0 1的二进制位为bit。

8个bit组成一个字节。可以表示2^8=256种可能。

eg：说ipv4的地址是由4个字节组成。就是0-255用一个字节表示，四位就是四个字节。

ASCII编码

美国制定的一套字符集编码。

用一个字节的后7位，表示128个不同的字符。第一位都为0。如32表示空格，65表示A

可是，当用asc2表示世界上其他语言时，一个字节，即使用上第一位，也不够。于是出现了许多他编码，如GB2312，规则不一。

为了让计算机认识各种语言，出现了统一的编码集Unicode。

Unicode

Unicode收录了全部的字符，并统一编号。但他之规定了字符的二进制编号，却没规定改如何存储。

有时，一个字符需要3，4个字节才能存储，而英文字母1个字节就能存储，因此unicode有两个问题：

1、计算机如何区分是unicode还是asc2？比如三个字节放一起，是解释成3个asc2的字符，还是1个unicode字符？（这也就是为啥java io中分字符类和字节类了）

2、1个英文字母，要使用3，4个字节存储，太浪费了。。

UTF-8

utf8出现了，并统一了编码规范。UTF-8是Unicode实现方式的一种。其他的utf-16，utf-32也有，但基本不被使用。

utf-8是1-4个字节变长的，也就是根据实际需要存储。

utf-8规则：

1、对于1字节的字符，第一位是0，后面7位是对应unicode编码，与asc2是一样的

2、对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

许多编辑工具可以查看编码方式，并根据算法互相转化编码。

以上为学习阮一峰老师博客笔记。

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

posted @ 2012-09-28 12:02 王冶soda 阅读(448) 评论(0) 编辑收藏举报

刷新页面返回顶部

王冶soda