python系列&deep_study系列:【Python基础】字符串与编码
【Python基础】字符串与编码
【Python基础】字符串与编码
字符串与编码
Unicode 是一种字符集,它定义了字符的标准化编码。
-
而 UTF-8 是一种可变长度的编码方案,用于表示 Unicode 字符集中的字符。
-
在计算机内存中,统一使用Unicode编码(方便统一显示),当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码(方便储存节省空间)。
bytes数据类型的显示问题:
在字节模式下,每个字节可以显示为字符形式,但是这种显示方式只适用于在 ASCII 范围内的字符,即数值范围为 0 到 127 的字节。
对于超出 ASCII 范围的字节,它们的数值形式会以字节的十六进制表示形式显示,例如 \x80、\xFF 等。这种显示方式更直观地表示字节的数值。
因此,才会有如下表示:
>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
\u 与 \x的区别
\u 是用于表示一个 Unicode 字符的十六进制转义序列。它用于表示范围从 U+0000 到 U+FFFF 的字符。
\x 是用于表示一个字节的十六进制转义序列。它通常用于表示字节的特定值,范围从 0x00 到 0xFF。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)