正则表达式——推荐使用 Unicode 编码

常见的正则表达式的文档都是关于英文（ASCII字符）的，英文开发者通常也只需要处理ASCII字符，不需要处理中文这类多字符的字符。不过，依照李处ASCII字符的方式处理中文字符，就有可能出错。

举个例子，许多文档说点号.可以匹配“除换行符\n之外的任意字符”，单这可能只适用于单字节字符，因为点号匹配的其实只是“除换行符\n之外的任意字符”而已。

Python 2

re.search(r"^.$", "发") != None     # => false

PHP 4.x/5.x

preg_match("/^.$/", "发");          // => 0, 表示成功匹配的次数为0

Ruby 1.8

"发" =~ /^.$/ != nil                # => false

之所以会出现这种情况，是因为正则表达式在匹配时“看到”的字符串是多个字符（在UTF-8编码环境下占用3个字节；在GBK编码环境下占用2个字节），于是将它们全部视为单字节字符，而没有理解这几个字节表示的是“发”；因为点号.只能匹配一个字符，结果当然不能正确匹配。要解决这个问题，必须显示指定编码，让正则表达式处理程序正确识别多字节字符，Python中的做法是在字符串的开头的引号之前写上u字符。

点号.对 Unicode 字符的匹配

字符串	正则表达式	语言	是否显示指定 Unicode 模式	可否匹配
发	^.$	.NET	否	可
	^.$	Java	否(无须指定)	可
	^.$	Javascript	否(无法指定)	结果取决于浏览器
	/^.$/	PHP	否	否
	/^.$/u	PHP	是	可
	^.$	Python 2	否	否
	^.$	Python 3	否	可
	/^.$/	Ruby 1.8	否	可
	/^.$/u	Ruby 1.8	是	可
	/^.$/	Ruby 1.9	否	可

注1： PHP 和 Ruby 的正则表达式本身不包含分隔符（分隔符可以有很多种，常见的是反斜线/），但 PHP 指定 Unicode 模式必须在后一个分隔符之后写u，所以在这里将分隔符也写出来。

注2：Python 2 中虽然提供了 Unicode 模式，但即便采用这种模式，点号.仍然不能匹配多字节字符，出非显示指定为 Unicode 字符串(在 Python 2，默认是 ASCII 字符串)

注3：Ruby 1.9 在不同平台想的变现不一样，经过作者测试，在 Linux 下采用 Unicode 匹配规则，而 Mac 和 Windows 的情况通常是采用 ASCII 匹配规则。

现在再来解释，虽然 GBK 编码也是多字节编码，为什么不推荐使用：常见的中文字符编码有 GBK 和 Unicode 两种， GBK 编码使用确实也很多（尤其是在 Windows 平台上），但如果需要使用正则表达式处理中文，我强烈推荐使用 Unicode 字符。这样的选择的最重要的原因是，正则表达式处理程序一般只能准确识别 Unicode 字符的边界。

举例来说：要求匹配“收”（GBK编码是ca d5）或者“发”（GBK编码是b7 a2），很自然会想到使用字符组[收发]。这个思路是对的，但从例 7-4 可以看到，即便采用GBK编码，正则表达式处理程序仍然不能识别出“2个字符节字符构成的字符组”，而将其视为“4个单字符字节构成的字符组”，其值分别为202、213、183、162，换算成十六进制，正好是“收”和“发”对应的ca、d5和b7、a2.用它来匹配没有指定Unicode编码的字符“罚”（它的GBK编码是b7 a3，也解释十进制的183 163），就会产生错误——虽然“罚”字既不等于“收”也不等于“发”，但码值为b7的这个单字符字符可以匹配！

posted @ 2018-12-12 10:54 gaara724 阅读(1473) 评论(0) 编辑收藏举报

刷新页面返回顶部

gaara724

正则表达式——推荐使用 Unicode 编码

点号.对 Unicode 字符的匹配

公告