关于编码的笔记

(根据【金角大王alex】博客整理)

编码概述：

首先来看一下不同的编码方式：

ASCII 占1个字节，只支持英文
GB2312 占2个字节，支持6700+汉字
GBK GB2312的升级版，支持21000+汉字
Shift-JIS 日本字符
ks_c_5601-1987 韩国编码
TIS-620 泰国编码

　　由于每个国家都有自己的字符，所以其对应关系也涵盖了自己国家的字符，但是以上编码都存在局限性，即：仅涵盖本国字符，无其它国家字符的对应关系。应运而生出现了万国码(Unicode)，它涵盖了全球所有的文字和二进制的对应关系:

Unicode:

Unicode 2-4字节已经收录了136690个字符，目前还在不断扩张中...

Unicode有两个作用：

　　1. 直接支持全球所有语言，每个国家都可以不再使用自己之前的就编码了(类似于英语是全球的通用语言)

　　2. unicode包含了和全球所有国家编码的映射关系。

　　Unicode虽然解决了字符和二进制之间的关系，但是使用Unicode存储一个字符太浪费内存空间了，例如使用ASCII存储“Python”字符串仅仅需要6个字节，但是使用unicode则需要十二个字节。

　　使用Unicode编码在硬盘或者内存上存储空间过大的问题还是个小事情，但是在进行网络传输上则存在较大的问题，以"Python"这个字符串为例，使用Unicode相比ASCII则需要多传一倍的内容，但是本质上传输的内容还是相同的。

　　为了解决存储空间过大和网络传输增加带宽的问题，出现了Unicode Transformation Format(即UTF)，它的作用是对unicode进行转换，以便于在存储和网络传输时可以节省空间。

UTF:

utf-8：是通用1、2、3、4个字节表示所有字符；优先使用1个字节，无法满足则增加一个字节，最多4个字节。
- 英文：1个字节
- 欧洲语系：2个字节
- 东亚：3个字节
- 其它及特殊字符：4个字节
utf-16：使用2、4个字节表示所有字符；优先使用2个字节，否则使用4个字节表示。
utf-32：使用4个字节表示所有字符。

　　UTF是为unicode编码设计的一种在存储和传输时节省空间的编码方案。

字符在硬盘上的存储：

无论字符以什么编码在内存里显示，存到硬盘上都是2进制。

存储到硬盘上时以何种编码存的，再从硬盘上读出来，就必须以何种编码读，不然就会出现乱码。

编码的转换：

unicode其中的一个功能是其包含了和全球所有国家编码的映射关系，换一句话说，就是使用gbk编码的“刘十一”，unicode能自动知道它在unicode中的“刘十一”的编码是什么。

在python2中，python文件默认的以ascii格式进行编码：

>>> import sys
>>> sys.getdefaultencoding()
'ascii'

在python3中, python文件默认以utf-8方式进行编码：

 liushiyi@bizhehaodeMacBook-Air  ~  python3
Python 3.6.3 (v3.6.3:2c5fed86e0, Oct  3 2017, 00:32:08)
[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.getdefaultencoding()
'utf-8'

Python3的执行过程：

　　1. 解释器找到代码文件，把代码字符串按文件头定义的编码加载到内存，转成unicode；

　　2. 把代码字符串按照语法规则进行解释；

　　3. 所有的变量字符都会以unicode编码进行声明。

posted @ 2017-12-25 13:40 刘十一阅读(453) 评论(0) 编辑收藏举报

刷新页面返回顶部

刘十一

关于编码的笔记

公告