Python基础（八）—编码详解（ASCII、GBK、Unicode、UTF-8等）、decode&encode

Posted on 2019-05-19 10:15 走过萧萧路阅读(313) 评论(0) 编辑收藏举报

编码的发展

看了很多篇博客，感觉还是先从历史讲起比较好…

ASCII
8位的字节一共可以组合出256(2的8次方)，把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这种标准被称为：ANSI 的"Ascii"编码（American Standard Code for Information Interchange，美国信息互换标准代码）。这种标准使用了1个字节7位二进制表示，最高位(b7)用作奇偶校验位。而8位二进制的256种可能的字符称为扩展ASCII码（不再是国际标准）。
DBCS
为表示汉字，出现了GB2312：小于127的字符的意义与原来相同（“半角"字符），但当两个大于127的字符连接在一起时，就代表一个汉字，第一个字节称为高字节（从0xA1-0xF7）,第二个字节为低字节（从0xA1-0xFE），共7000多个简体汉字。GBK全称汉字内码扩展规范，在GB2312上扩容，增了近20000个新的汉字（包括繁体字）和符号。后面出现了GB18030，收入汉字70000余个，每个字可以由 1 个、2 个或 4 个字节组成（单字节ASCII、双字节GBK、四字节）。以上汉字标准统称他们叫做"DBCS”（Double Byte Charecter Set 双字节字符集）。
Unicode编码
为解决国家之间的交流，ISO （国际标谁化组织）搞一个包括了字符集：Universal Multiple-Octet Coded Character Set，简称 UCS, 俗称 “UNICODE”。规定必须用两个字节，也就是16位来统一表示所有的字符，对于ascii里的那些“半角”字符，UNICODE 包持其原编码不变，只是将其长度由原来的8位扩展为16位，而其他文化和语言的字符则全部重新统一编码，如果不够ISO也已经准备了UCS-4方案，说简单了就是四个字节来表示一个字符。
零碎知识
- “字符"和"字节”:“字节”是一个8位的物理存贮单元，而“字符”则是一个文化相关的符号。
- 奇偶校验:是指在代码传送过程中用来检验是否出现错误的一种方法，一般分奇校验和偶校验两种。奇校验规定：正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添0；偶校验规定：正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。
- Unicode:只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。
- 由于"半角"英文符号只需要用到低8位，所以其高8位永远是0，因此这种大气的方案在保存英文文本时会多浪费一倍的空间。
以上可以简化为下表：

	系统内码	说明	系统
阶段一	ASCII	计算机刚开始只支持英语，其它语言不能够在计算机上存储和显示。	英文 DOS
阶段二	ANSI编码（本地化）	为使计算机支持更多语言，通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如：汉字 ‘中’ 在中文操作系统中，使用 [0xD6,0xD0] 这两个字节存储。不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。	中文 DOS，中文 Windows 95/98，日文 Windows 95/98
阶段三	UNICODE（国际化）	为了使国际间信息交流更加方便，国际组织制定了 UNICODE 字符集，为各种语言中的每一个字符设定了统一并且唯一的数字编号，以满足跨语言、跨平台进行文本转换、处理的要求。	Windows NT/2000/XP，Linux，Java

编码规则

编码规则种类
虽然以上规定了各类的字符集，有些却没有对应的编码规则去统一实现，例如：UTF-8是Unicode的实现方式之一。下面是介绍字符集对应的各类编码规则：

分类	编码标准	说明
单字节字符编码	ISO-8859-1	最简单的编码规则，每一个字节直接作为一个 UNICODE 字符。比如，[0xD6, 0xD0] 这两个字节，通过 iso-8859-1 转化为字符串时，将直接得到 [0x00D6, 0x00D0] 两个 UNICODE 字符，即 “ÖÐ”。反之，将 UNICODE 字符串通过 iso-8859-1 转化为字节串时，只能正常转化 0~255 范围的字符。
ANSI 编码	GB2312, BIG5, Shift_JIS, ISO-8859-2 ……	把 UNICODE 字符串通过 ANSI 编码转化为“字节串”时，根据各自编码的规定，一个 UNICODE 字符可能转化成一个字节或多个字节。反之，将字节串转化成字符串时，也可能多个字节转化成一个字符。比如，[0xD6, 0xD0] 这两个字节，通过 GB2312 转化为字符串时，将得到 [0x4E2D] 一个字符，即 ‘中’ 字。 “ANSI 编码”的特点： 1. 这些“ANSI 编码标准”都只能处理各自语言范围之内的 UNICODE 字符。 2. “UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。
UNICODE 编码	UTF-8, UTF-16, UnicodeBig ……	与“ANSI 编码”类似的，把字符串通过 UNICODE 编码转化成“字节串”时，一个 UNICODE 字符可能转化成一个字节或多个字节。与“ANSI 编码”不同的是： 1. 这些“UNICODE 编码”能够处理所有的 UNICODE 字符。 2. “UNICODE 字符”与“转换出来的字节”之间是可以通过计算得到的

UTF-8
- UTF-8是互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32。UTF-8的编码规则只有两条：
  - 对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
  - 对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。
    Unicode符号范围 | UTF-8编码方式
    (十六进制) | （二进制）
    --------------------±--------------------------------------------
    0000 0000-0000 007F | 0xxxxxxx
    0000 0080-0000 07FF | 110xxxxx 10xxxxxx
    0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
    0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

看起来utf-16更加节省资源，节省空间。但实际上，当时，互联网上绝大部分存在的资源都是英文的，英文在utf-16中也是2个字节，而在utf-8中则是1个字节。在当时，显然是utf-8更加节省资源。现在我们在中文世界里来比较他们，则是utf-16更加节省资源。
UTF-8出现的原因：unicode编码是用两个字节来存储字符，如果一篇文章中，大部分都是英文，使用unicode编码就会造成空间的浪费，对英文部分使用ASCII码只需要一个字节就可以了。这时候，utf-8解决了这个问题。utf-8是一种可变长的字符编码，当存储英文时只使用一个字节，节省了一半的空间，而存储中文字符时，长度还是不变。utf-8虽然压缩了存储空间，但是如果在内存中存储，使用utf-8却由于它的长度不固定，带来了很大的不便，使得在内存处理字符变得复杂。应对这个问题的解决策略是：在内存中存储字符时还是使用unicode编码，因为unicode编码的长度固定，处理起来很方便。而在文件的存储中，则使用utf-8编码，可以压缩内存，节省空间。这里一般有个自动转换的机制，即从文件中读取utf-8编码到内存时，会自动转换为unicode编码，而从内存中将字符保存到文件时，则自动转换为utf-8编码。

decode&encode

编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。如下图：
编码转换.png

关于两者的正确理解
- decode的作用是将其他编码的字符串转换成Unicode编码，如str1.decode(‘gb2312’)，表示将gb2312编码的字符串str1转换成Unicode编码。
- encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode(‘gb2312’)，表示将Unicode编码的字符串str2转换成gb2312编码。
注意事项：
- s=‘中文’ 如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。
- 在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件。
- 如果字符串是这样定义： s=u’中文’ 则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。只需要直接使用encode方法将其转换成指定编码即可
- 如果一个字符串已经是unicode了，再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断isinstance(s, unicode) #用来判断是否为unicode

个人博客：Loak 正 - 关注人工智能及互联网的个人博客
文章地址：Python基础（八）—编码详解（ASCII、GBK、Unicode、UTF-8等）、decode&encode

刷新页面返回顶部