python中str与bytes

由于Python的字符串类型是str,在内存中以Unicode表示,一个字符对应若干个字节。如果要在网络上传输,或者保存到磁盘上,就需要把str变为以字节为单位的bytes

存储与传输:Unicode的str可以通过encod来编码成utf-8,方便存储与传输。‘“ABC”.encode('ascii'),纯英文的str可以通过ASCII来编码,而含有中文的str通常使用UTF-8来编码

网络或者磁盘读取:当从网络或者磁盘读取字节流时,读到的是bytes类型的字节流,这时需要我们将字节流转化为str来进行之后的数据操作,这时需要使用decode来解码成Unicode

b'\xe4\xb8\xad\xe5\x9b\xbd'.decode("utf-8")

在操作字符串时,我们经常遇到strbytes的互相转换。为了避免乱码问题,应当始终坚持使用UTF-8编码对strbytes进行转换。

python2中的str和bytes这两个类型其实是一回事。python3做了明确区分:str是Unicode编码格式的字符串,bytes就是单纯的二进制字节。py3中Unicode编码后直接变成了bytes格式

posted @ 2019-04-23 22:08  yanweimin  阅读(327)  评论(0编辑  收藏  举报