在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。

用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件。

Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符:

以Unicode表示的str通过encode()方法可以编码为指定的bytes,例如:

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
如果bytes中只有一小部分无效的字节,可以传入errors='ignore'忽略错误的字节
posted on 2019-10-30 11:53  曹婷婷  阅读(241)  评论(6编辑  收藏  举报