python学习之字符编码

字符串涉及到编码:ascii gbk gb2312 unicode uft-8

对于英文字符ASCII(可以看成utf-8的子集)就可以了,中文用gbk/gb2312;

unicode:世界统一(兼容所有语言)的计算机系统编码(内存中),但是存储时比较浪费空间,所以存到硬盘或者输出查看时用uft-8.也就是说用记事本打开读时或浏览网页时都是Unicode-》tuf-8,因为记事本和浏览器服务器系统是Unicode类型的

uft-8(节省存储空间的可变长编码):ptthon保存源代码时,就需要务必指定保存为UTF-8编码.在程序开头申明了UTF-8编码并不意味着你的.py文件就是UTF-8编码的,这就要通过文本编辑器的设置-编码类型来设置正在使用UTF-8 without BOM编码。如果.py文件本身使用UTF-8编码,并且也申明了# -*- coding: utf-8 -*-,打开命令提示检验是否支持了中文

Python 3版本中,字符串是以Unicode编码的即支持中文

Python提供了ord(‘字符’)函数获取字符的编码整数表示,chr()函数把编码转换为对应的字符

Python的字符串类型是str,在内存中以Unicode表示,一个字符对应若干个字节,以Unicode表示的str通过.encode('ASCII’)方法可以编码为指定的bytes,而字节流变str用.decode('ascii')的方法变str;含有中文的 str
可以用 UTF-8 编码为 bytes

bytes类型的数据用带b前缀的单引号或双引号表示,用于字符串在网络上传输,或者保存到磁盘上

len('ABC')与len(b'ABC')分别表示字符和字节的个数。

格式化输出:用内外2两个%

>>> 'Hi, %s, you have $%d.' % ('Michael', 1000000) 'Hi, Michael, you have $1000000.'

posted on 2017-05-23 00:52  杰瑞鼠  阅读(207)  评论(0编辑  收藏  举报