python系列&deep_study系列：【Python基础】字符串与编码

【Python基础】字符串与编码

【Python基础】字符串与编码

【Python基础】字符串与编码

字符串与编码

Unicode 是一种字符集，它定义了字符的标准化编码。

而 UTF-8 是一种可变长度的编码方案，用于表示 Unicode 字符集中的字符。
在计算机内存中，统一使用Unicode编码（方便统一显示），当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码（方便储存节省空间）。

bytes数据类型的显示问题：

在字节模式下，每个字节可以显示为字符形式，但是这种显示方式只适用于在 ASCII 范围内的字符，即数值范围为 0 到 127 的字节。

对于超出 ASCII 范围的字节，它们的数值形式会以字节的十六进制表示形式显示，例如 \x80、\xFF 等。这种显示方式更直观地表示字节的数值。

因此，才会有如下表示：

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)