Python Unicode 编程全解析：从原理到实践的深度指南

本文深入介绍 Python 对 Unicode 规范的支持，全面剖析 Unicode 在 Python 编程中的应用。从 Unicode 的基础概念，如定义、编码，到 Python 中字符串类型、Unicode 属性、字符串比较、正则表达式，再到数据读写、文件名处理等实际应用，通过丰富示例、清晰图表及对比表格，帮助读者掌握 Unicode 编程技巧，解决常见问题。

一、Unicode 概述

（一）定义

Unicode 规范致力于涵盖人类语言的所有字符，并为每个字符分配唯一编码。字符是文本的最小组成部分，如‘A’‘È’等。Unicode 标准用码位（取值范围 0 到 0x10FFFF 的整数）表示字符，如U+265E代表 “国际象棋黑骑士”（‘♞’）。字符在显示时的图形元素称为字形，Python 编程通常无需关注字形，由字体渲染程序负责处理。

（二）编码

Unicode 字符串由码位序列构成，在内存中需转换为码元，进而映射为字节。字符编码就是将 Unicode 字符串转为字节序列的规则。直接用 32 位整数表示码位的方式存在可移植性差、浪费空间、与现有 C 函数不兼容等问题。UTF-8 是常用编码，其规则为：码位小于 128 时，直接用对应字节值表示；码位大于等于 128 时，转换为 2 - 4 个字节的序列。UTF-8 具有能处理所有 Unicode 码位、紧凑、兼容 ASCII、便于同步等优点。

编码方式	特点	示例（“Python” 的编码）	优势	劣势
32 位整数编码	用 32 位整数表示码位	`0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00`	简单直接	可移植性差、浪费空间、与现有 C 函数不兼容
UTF-8 编码	根据码位范围转换为 1 - 4 个字节	`b'Python'`（与 ASCII 相同）	能处理所有码位、紧凑、兼容 ASCII、便于同步	-

二、Python 对 Unicode 的支持

（一）字符串类型

Python 3.0 起，str类型存储 Unicode 字符。源代码默认编码为 UTF-8，可直接在字符串中包含 Unicode 字符，也能使用转义序列表示，如\N{GREEK CAPITAL LETTER DELTA} 、\u0394 、\U00000394 。还能用bytes.decode()方法创建字符串，通过errors参数指定解码错误时的处理策略。利用chr()和ord()函数可进行字符和码位的相互转换。

（二）转换为字节

str.encode()方法将 Unicode 字符串转换为bytes形式，errors参数支持多种处理方式。如将包含非 ASCII 字符的字符串转换为 ASCII 编码时，不同errors参数会产生不同结果。

`errors`参数值	处理方式	示例（`u = chr(40960)+'abcd'+chr(1972)`转换为 ASCII 编码）
`'strict'`	触发`UnicodeEncodeError`异常	`UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in position 0: ordinal not in range(128)`
`'ignore'`	忽略无法编码的字符	`b'abcd'`
`'replace'`	用`?`替换无法编码的字符	`b'?abcd?'`
`'xmlcharrefreplace'`	插入 XML 字符引用	`b'ꀀabcd޴'`
`'backslashreplace'`	插入`\uNNNN`转义序列	`b'\\ua000abcd\\u07b4'`
`'namereplace'`	插入`\N{...}`转义序列	`b'\\N{YI SYLLABLE IT}abcd\\u07b4'`

（三）Python 源代码中的 Unicode 文字

在 Python 源代码中，可用\u（后跟 4 位十六进制数字）或\U（后跟 8 位十六进制数字）转义序列表示 Unicode 码位。若源代码需使用非 UTF-8 编码，可在文件开头添加特殊注释指定编码。

（四）Unicode 属性

unicodedata模块可获取 Unicode 字符的属性，如名称、类别、数值等。类别代码用于描述字符性质，如'Ll'表示 “字母，小写” 。通过unicodedata.numeric()函数可获取表示数字概念字符的数值。

（五）字符串比较

Unicode 使字符串比较变复杂，同一字符可能有不同码位序列表示。casefold()方法按 Unicode 标准将字符串转换为不区分大小写形式，处理特殊字符如德语字母 “ß” 。unicodedata.normalize()函数将字符串转换为规范化形式，便于比较。比较时可结合casefold()和normalize()，确保处理全面准确。

（六）Unicode 正则表达式

re模块支持字节串或字符串形式的正则表达式，特殊字符序列含义因匹配模式而异。如\d在字节串中匹配[0-9]，在字符串中匹配'Nd'类别字符；指定re.ASCII标志时，行为又有所不同。

三、Unicode 数据的读写

（一）文件读写

处理 Unicode 数据的输入输出时，优先检查所用库是否原生支持 Unicode 。将 Unicode 数据写入磁盘或通过套接字发送前，通常需转换为特定编码。使用open()函数时，通过encoding和errors参数指定编码和错误处理方式，可方便地读写 Unicode 数据。部分编码（如 UTF-16）文件开头可能有字节顺序标记（BOM），UTF-8 文件也可能有 “BOM”，读取时可使用相应编解码器（如 “utf-8-sig”）自动处理。

（二）Unicode 文件名

现代操作系统大多支持 Unicode 文件名，Python 倾向于使用 UTF-8 编码处理文件名。sys.getfilesystemencoding()可获取当前系统的文件系统编码。os模块函数支持 Unicode 文件名，os.listdir()根据传入路径是字节串还是 Unicode 字符串，返回相应形式的文件名列表。

四、识别 Unicode 的编程技巧

编写 Unicode 处理软件时，建议程序内部只处理 Unicode 字符串，尽早解码输入数据，最后编码输出数据。处理来自不可信来源的数据时，应检查字符串是否包含非法字符，且检查解码后的字符串。

（一）在文件编码格式之间转换

codecs.StreamRecoder类可在两种编码间透明转换，如将 Latin - 1 编码的文件转换为 UTF - 8 编码。

（二）编码格式未知的文件

若不知道文件编码且只想处理 ASCII 部分，可利用surrogateescape错误处理 handler 打开文件，它会将非 ASCII 字节解码为特殊码位，编码回写时还原。

总结

本文全面介绍了 Unicode 在 Python 中的应用，从基础概念到实际编程的各个环节，包括字符串处理、数据读写、文件名操作等。通过学习这些内容，读者能够深入理解 Unicode 在 Python 编程中的重要性和使用方法，在处理多语言文本和国际化应用开发中更加得心应手。在实际编程中，应遵循 Unicode 处理的最佳实践，确保程序正确、高效地处理各种字符数据。

TAG：Python；Unicode；字符编码；字符串处理；文件读写；正则表达式；编程技巧

云南网站建设,企业信息化软件定制开发

公告