day4-python基础-编码相关

1.编码的历史

2.python 3.x中的bytes与str

3.编码的转换

正文开始

1.编码的历史与发展

1.1编码历史变更

　　编码可以理解为谍战片中电报的密码本，如果要想让电脑识别要输入的文本，需要将文本转换为电脑能识别的机器语言

　　由于发明计算机的是美国人，所以最开始的编码表就是美国人所设定，所设定的这个表就为ASCII码，ASCII码包含字母大小写、数字以及特殊符号。ASCII码使用8bit，一个字节表达一个字符，所以做多显示为2**8-1个字符，也就是255个字符，例如00000001 a

　　后面由于计算机的广泛传播，ASCII码已经完全不能满足人们的日常需要，这个时候就出现了万国码，unicode，使用16bit，2个字节表示一个字符，后面使用后发现并不能实现，这个时候就进行了升级，此时采用32bit，也就是四个字节表示一个字符，虽然基本包含了所有的字符，但是，使用这种编码占用空间就很大；最终在后期的升级下，采用了现在大范围使用的UTF-8编码格式，对于英文以及传统的特殊字符采用ASCII编码，也就是8bit，一个字节，对于欧洲地区采用16bit，也就是2字节表示一个字符，对于亚洲区域则采用24bit，也就是三个字节显示一个字符。

　　过于国内的字符编码，在unicode和utf-8没有大规模使用的期间，我国有自己的一套独立的编码格式，由最开始的GB2312到后面的GBK在到最新的GB18130,对于国内的编码的格式主要是，英文等传统特殊符号采用ASCII码就行，对于中文则采用16bit，也就是2字节表示，这样就造成不同国家不同的字符规格。

　　实例

　　'old男孩'在GBK中是7字节，在utf-8是9字节

　　在python 2.7版本中，默认为ASCII码，不支持中文，如果需要输入中文必须在文首输入以下

　　# -*- encoding：utf-8 -*-

　　1.2进制的区别

　　进制主要有二进制，八进制，十进制，十六进制

　　二进制：只有01

　　八进制：0-7

　　十进制：0-9

　　十六进制：0-E

　　　1.2.1二进制转十进制以及十进制转换二进制

二进制转化成十进制
1101      ---> 
0*2**7+0*2**6+1*2**5+0*2**4+1*2**3+1*2**2+0*2**1+1*2**0
1*2**5+1*2**3+1*2**2+1*2**0 = 32 + 8 + 4 + 1 = 45

十进制转化成二进制 ： 对2取余，逆向排列
  ——-> 0010 1010

2.python3.x中的bytes与str

回到bytes和str的身上。bytes是一种比特流，它的存在形式是01010001110这种。我们无论是在写代码，还是阅读文章的过程中，肯定不会有人直接阅读这种比特流，它必须有一个编码方式，使得它变成有意义的比特流，而不是一堆晦涩难懂的01组合。因为编码方式的不同，对这个比特流的解读也会不同，对实际使用造成了很大的困扰。下面让我们看看Python是如何处理这一系列编码问题的：

>>> s = "中文"
>>> s
'中文'
>>> type(s)
<class 'str'>
>>> b = bytes(s, encoding='utf-8')
>>> b
b'\xe4\xb8\xad\xe6\x96\x87'
>>> type(b)
<class 'bytes'>

从例子可以看出，s是个字符串类型。Python有个内置函数bytes()可以将字符串str类型转换成bytes类型，b实际上是一串01的组合，但为了在ide环境中让我们相对直观的观察，它被表现成了b'\xe4\xb8\xad\xe6\x96\x87'这种形式，开头的b表示这是一个bytes类型。\xe4是十六进制的表示方式，它占用1个字节的长度，因此”中文“被编码成utf-8后，我们可以数得出一共用了6个字节，每个汉字占用3个，这印证了上面的论述。在使用内置函数bytes()的时候，必须明确encoding的参数，不可省略。

我们都知道，字符串类str里有一个encode()方法，它是从字符串向比特流的编码过程。而bytes类型恰好有个decode()方法，它是从比特流向字符串解码的过程。除此之外，我们查看Python源码会发现bytes和str拥有几乎一模一样的方法列表，最大的区别就是encode和decode。

从实质上来说，字符串在磁盘上的保存形式也是01的组合，也需要编码解码。

如果，上面的阐述还不能让你搞清楚两者的区别，那么记住下面两几句话：

在将字符串存入磁盘和从磁盘读取字符串的过程中，Python自动地帮你完成了编码和解码的工作，你不需要关心它的过程。
使用bytes类型，实质上是告诉Python，不需要它帮你自动地完成编码和解码的工作，而是用户自己手动进行，并指定编码格式。
Python已经严格区分了bytes和str两种数据类型，你不能在需要bytes类型参数的时候使用str参数，反之亦然。这点在读写磁盘文件时容易碰到。

在bytes和str的互相转换过程中，实际就是编码解码的过程，必须显式地指定编码格式。

3.编码的转换

对于编码的转换，只需要记住下面这个图就好了

$S0OL)R{IYS]~)MT6F)718_A$

posted @ 2018-12-26 22:26 柴犬砍柴阅读(148) 评论(0) 编辑收藏举报

刷新页面返回顶部

柴犬砍柴

day4-python基础-编码相关

公告