编码的理论知识-小结

一、背景

关于电脑的疑问。

1、abcd这样的字符信息，是以怎样的01序列存到电脑硬盘的，占用了多少个字节？

2、汉字“中国”这样的字符信息，又是以怎样的01序列存到电脑中的，又占用了几个字节？

3、编码格式有：ASCII、GBK、BIG、UTF-8、UTF-16等，采用不同的编码格式，文字符号信息在电脑中存储的01序列就不会一样，分别占多少个字节？按什么规则生成01序列？

种种问题，就需要我们搞懂编码的理论知识。

二、解决问题

1、为什么要编码？

答：电脑只认识0和1，不认识人类易读的文字和符号。所以电脑存储数据前，就需要把文字符号转变成01序列，这个转换过程就是编码。

如：按照ASCII编码表，将符号 “a” 编码成的01序列就是，0110 0001 （10进制表示为97；16进制表示为0X61），容量为1个字节（8个bit位）。

2、什么是编码？

答：编码就是建立一种文字符号和01序列的对应关系，存到电脑中的就是01序列，显示给人类看的时候就是文字符号图形。

编码时，将文字符号按照某个指定的编码表转为01序列，存到电脑中；

解码时，将电脑中存储的01序列按照相同的某个指定编码表转为文字符号图形。

编码如：

按照GBK编码表，将符号 a 编码成的01序列就是，0110 0001 （10进制表示为97；16进制表示为0X61），容量为1个字节（8个bit位）。

按照GBK编码表，将符号 “啊” 编码成的01序列就是，1011 0000， 1010 0000（10进制表示为176，160；16进制表示为0XB0，0XA0），容量为2个字节（16个bit位）。

3、什么是编码格式（编码表）？

答：编码格式，也可以称之为编码表。文字符号和01序列的对应关系就是编码表。

常见编码格式：ASCII、GBK、UTF-8等。

4、常见编码格式的编码特点？

（1）ASCII（美国专用）

1个字节（8个bit位）表示一个文字符号。最高位为0，形如：0xxx xxxx。从0000 0000 到 0111 1111（10进制的127）总共可以表示128个文字符号（包括不能打印的控制符、可打印的字母、数字、标点符号）。

（2）GBK（中国专用）

由于ASCII中只包含了美国使用的文字符号，所以美国之外的国家就自己发明了自己的编码表。以中国的GBK为例。

1）GBK为了可以扩大01序列种类的总数，采取2个字节表示一个汉字符号的方式。即2个字节的01序列来表示一种01序列。

2）GBK为了GBK可正确的解码按照ASCII编码表编码过的01序列信息，所以采取了兼容ASCII码的措施进行编码。

GBK编码表实现以上原则的措施如下：

按照GBK编码表解码，每1个字节（8个bit位）的最高位为0时（0xxx xxxx），就按照ASCII编码表来解码为对应符号。如0110 0001 （10进制表示为97；16进制表示为0X61）按照ASCII编码表解码后就是符号“a”。

按照GBK编码表解码，每1个字节（8个bit位）的最高位为1时（1xxx xxxx），就再读取后面紧跟的1个字节（第2个字节，8个bit位），并且GBK规定第2个字节的最高位也要是1（1xxx xxxx），2个字节凑齐16个bit位（1xxx xxxx，1xxx xxxx）共同表示一个汉字符号。如：汉字符号“中”，在GBK编码表中对应的01序列为1101 0110，1101 0000（10进制表示为214，208；16进制表示为0XD6，0XD0），容量为2个字节。

延伸：其他国家和地区也类似GBK发明了自己的国家文字符号的编码表。如：日本的JP系列、台湾的Big系列。

（3）UTF-8（全球通用）

虽然各国编码表都兼容了美国的符号（ASCII），但是ASCII没有兼容美国和本国之外的其他所有国家的符号，所以，中国的GBK数据通过网络发送到日本后，日本就不能通过JP系列编码表正确解码。

有人就会说，可以在日本的电脑上预装好GBK编码表不就解决了吗？答案是可以这么干，但是不推荐。原因是，如果日本预装中国的GBK编码表，才能正确解码中国的数据，那么日本的电脑是不是还要预装韩国的HG编码表、朝鲜的CX编码表，阿拉伯的ALB编码表呢？所有日本之外国家的编码表都要预装一遍，同理，中国也要把中国之外的其他国家的编码表在电脑里预装一遍。这样很费事，一旦用户搞不清数据来自哪个国家，就不知道用哪种编码表解码了。

于是万国码Unicode系列出现了。Unicode系列包括3种编码表UTF-32（4字节表示一个符号）、UTF-16（2字节表示一个符号）、UTF-8（1、2、3个字节表示一个符号）。

这里以UTF-8为例进行说明：

1）UTF-8编码表兼容ASCII编码表

2）UTF-8编码表还将除了ASCII编码表符号之外的全世界的文字符号都包括了进来，所以又称万国码。

3）UTF-8编码表实现了1、2、3可变字节编码，1、2、3个字节都用于UTF-8表示文字符号。其中，汉字符号、日文符号、韩文符号等，1个文字符号就占3个字节。

UTF-8编码表实现以上原则的措施如下：

0xxx xxxx ：1字节格式，表示1个文字符号（就是ASCII编码表）。

按照UTF-8编码表解码，每1个字节（8个bit位）的最高位为0时（0xxx xxxx），就按照ASCII编码表来解码为对应符号。如0110 0001 （10进制表示为97；16进制表示为0X61）按照ASCII编码表解码后就是符号“a”。

110x xxxx，10xx xxxx ：2字节格式，表示1个文字符号。

按照UTF-8编码表解码，每1个字节（8个bit位）的最高位为110时（110x xxxx），就再读取紧跟的1个字节（第2个字节），并且UTF-8规定第2个字节的最高位要是10（10xx xxxx）。2个字节凑齐16个bit位（110x xxxx，10xx xxxx ）共同表示一个文字符号。

1110 xxxx，10xx xxxx，10xx xxxx ：3字节格式，表示1个文字符号。

按照UTF-8编码表解码，每1个字节（8个bit位）的最高位为1110时（1110 xxxx），就再读取紧跟的2个字节（第2、3个字节），并且UTF-8规定第2、3个字节的最高位要是10开头（10xx xxxx，10xx xxxx）。3个字节凑齐24个bit位（1110 xxxx，10xx xxxx，10xx xxxx ）共同表示一个文字符号。

5、什么是Unicode和base64编码表

（1）编码的基础表

Unicode编码表，是UTF-32、UTF-16、UTF-8的基础表。

Unicode编码表的作用是，先将全世界的符号都收集齐全，再对每一个符号进行编号（以10进制编号来说明），这个编号转为二进制的01序列表示，然后用于填充UTF编码格式中的x位置（bit位）。

编号的具体做法是，Unicode中的美国符号的编号继续和ASCII编码表的编号保持一致，其他所有国家的符号则按一定规则编号。当每个符号都在Unicode编码表中有了唯一的编号后，后面就是利用这些编号，转为对应的二进制01序列B（如，汉字符号“啊”在Unicode编码表的编号为21834，二进制表示为101 0101,0100 1010），再根据UTF-32、UTF-16、UTF-8的编码规则，将01序列B填充到各种UTF的x位置（bit位）。以UTF-8格式表示汉字符号“啊”为例，21834需要使用3个字节来表示，UTF-8的3个字节表示一个符号的格式为：24个bit位（1110 xxxx，10xx xxxx，10xx xxxx ）共同表示一个文字符号。那么01序列B（101 0101,0100 1010，共有7+8=15个bit位）来填充x位置（16个x位置），显然序列B的bit位不够，所有在序列B最前面补充一个0，变成序列C（0101 0101,0100 1010，共有8+8=16个bit位），在将序列C中的16个bit信息从左到右，一次填充到1110 xxxx，10xx xxxx，10xx xxxx中的x位置，得到1110 0101，1001 0101，1000 1010。（此时用10进制表示为15046026；16进制表示为E5，95，8A）

（2）上层编码表

如果其他编码是为符号转为01序列而产生的，那么base64编码就是为01序列转为符号（64+1=65个符号）而存在的。

base64编码表，是用于处理01序列再编码的事情的，且编码是可逆的。如：把小图片01序列用base64编码成字符表示。

以图片的01序列为例：

base64拿到一个01序列，就开始每3个字节（24个bit位）作为一个单位（不足3个字节的末尾补充0），并将该单位的24bit划分为4个小组，每个小组就是6bit（就是3/4个字节）。0到111 111（10进制的63），共有64个编号，分别对应26个字母*2+10个数字+加号+斜线。如000 001表示在base64编码表中表示字符“B”，那么图片中的000 001数据就对应字符“B”在文本保存时的编码，采用GBK保存文本时，“B”对应ASCII码中的十进制66，即为二进制0010 0010，所以最终图片中的000 001数据保存通过base64编码后到电脑中就是0010 0010，打开文档则显示字符“B”，通base64解码后则还原为原图片的数据000 001。

6、编码表举例

（1）ASCII编码表

https://www.cnblogs.com/andy9468/p/13039201.html

（2）GBK编码表

https://blog.csdn.net/huangxy10/article/details/10012147

（3）UTF-8编码表

https://www.cnblogs.com/novaCN/p/6052787.html

（4）Unicode编码表

https://www.cnblogs.com/csguo/p/7401874.html

延伸：符号的编码查询

http://www.mytju.com/classcode/tools/encode_utf8.asp

posted @ 2020-06-05 17:20 安迪9468 阅读(700) 评论(0) 收藏举报

刷新页面返回顶部

编码的理论知识-小结

公告