小话python 中的编码转换

1.前言：

一直认为自己会了，也明白了其中的知识，但是过几天不用就马上忘记了，总不能天天复习吧！还是来个好记性不如烂笔头吧！

2.编码：

python解释器在加载 .py 文件中的代码时，会对内容进行编码（默认ascill）

ASCII（American Standard Code for Information Interchange，美国标准信息交换代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言，其最多只能用 8 位来表示（一个字节），即：2**8 = 256，所以，ASCII码最多只能表示 256 个符号

显然ASCII码无法将世界上的各种文字和符号全部表示，所以，就需要新出一种可以代表所有字符和符号的编码，即：Unicode

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，规定虽有的字符和符号最少由 16 位来表示（2个字节），即：2 **16 = 65536，
注：此处说的的是最少2个字节，可能更多

UTF-8，是对Unicode编码的压缩和优化，他不再使用最少使用2个字节，而是将所有的字符和符号进行分类：ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存，东亚的字符用3个字节保存...

所以，python解释器在加载 .py 文件中的代码时，会对内容进行编码（默认ascill），所以如果不指定编码类型，如果有中文就会报错。

unicode是万国码，如果涉及到编码转换，必须要先转化成unicode，之后再将unicode转换成你需要的编码格式。
1个字节8位，即 8bit=1byte。一个单词是1个字节，一个汉字是2个字节。

3.编码转换：

decode：是编码
encode：是解码

各个编码之间是不能直接转换的，计算机内存中默认存储的编码格式是unicode，所以当我们需要将编码在utf8和gbk之间转换的时候，都需要和unicode做操作。

来上个展示一下转化

实例：

创建一个string = '大王让我来巡山'，string就被存储成gbk格式。此时我想把gbk格式转换成utf8格式，就要先将原gbk格式的string转换成unicode格式，然后再将unicode转换成utf8格式：

1 temp = '大王叫我来巡山'
2 temp_unicode = temp.decode('gbk')
3 temp_utf8=temp_unicode.encode('utf-8')
4 print temp_utf8

posted @ 2016-05-14 23:13 楚时邀月阅读(229) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

小话python 中的编码转换

1.前言：

2.编码：

3.编码转换：

公告