【转】正则表达式（三）：Unicode诸问题（下）

上一篇文章我们介绍了和Unicode有关的匹配问题，这篇文章我们主要讲述一下Unicode编码本身的特性，以便更好地运用正则表达式解决与Unicode相关的问题。

Unicode Code Point

Unicode字符多种多样，除去ascii中的字母、数字、标点和中文字符，还包括其它多种语言和多种符号，有些符号甚至很难打出来（比如表示商标注册的?），这时候该如何表示呢？再说远一点，如果我们想用一个字符组匹配所有中文字符，能不能像『[a-z]』那样呢？

所幸，每一个Unicode字符都对应自己的Unicode编码，也就是Unicode编码表中的一个代码点（Code Point），所以在正则表达式中的Unicode字符往往采用Unicode代码点来指定。

一般来说，指定代码点的形式有3种：『\uxxxx』、『\u{xxxx}』、『\x{xxxx}』（其中的xxxx为编码的值，\u之后必须有4 位16进制数字）。.NET、Java、JavaScript和Python使用第一种方式，而PHP和Ruby使用第二种方式（Ruby 1.9以上版本才支持这种表示法），PHP使用第三种方式。

比如“发表”的“发”字对应的Unicode编码是53 d1，它在不同语言中的表示法如下：所以我们可以在.NET、Java、JavaScript的正则表达式中这样表示“发” 字：“\u53d1”，Python稍有不同，必须使用u”\u53d1”（之前的u表示这是一个Unicode字符串）； Ruby中，“发”则必须写作”\u{53d1}”。

现在以“发”字为例，介绍不同语言中的Unicode表示法：

编码	语言	表示法	备注
53 d1	.NET	\u53d1
	Java	\u53d1
	JavaScript	\u53d1
	Python	\u53d1	必须使用Unicode字符串，Python 2.x中，要在字符串之前加u
	Ruby	\u{53d1}	限Ruby 1.9以上版本，且必须显式指定Unicode模式
	PHP	\x{53d1}	必须指定Unicode模式

既然可以这样指定Unicode字符，自然也可以在字符组中用范围表示法指定一个Unicode编码范围了。比如，我们查询Unicode编码表可知，中文的编码一般在4e00到9fff之间，所以可以用这样的字符组匹配中文字符（Unicode编码4e00-9fff归类为“CJK 统一表意符号”CJK Unified Ideographs [1]，涵盖了绝大多数中文字符）：

语言	字符组	备注
.NET	[\u4e00-\u9fff]
Java	[\u4e00-\u9fff]
JavaScript	[\u4e00-\u9fff]
Python	[\u4e00-\u9fff]	必须使用Unicode字符串，Python 2.x中，要在字符串之前加u
Ruby	[\x{4e00}-\x{9fff}]	限Ruby 1.9以上版本，且必须显式指定Unicode模式
PHP	[\u{4e00}-\u{9fff}]	必须指定Unicode模式

根据Unicode规范，每一个Unicode字符除了有唯一代码点对应，还具有其它属性，现在详细介绍三种属性，它们是：Unicode Property、Unicode Block、Unicode Script，下面的图粗略说明了这三者的关系。

Unicode Property

Unicode Property的记法类似『\p{L}』、『\p{Lo}』，它按照字符的功能分类Unicode字符，而不关心字符属于哪种语言，每个Unicode字符只能属于唯一Unicode Property。

举例来说，『\p{Z}』表示任意的空白字符或不可见的分隔符；『\p{P}』表示任何标点字符，等等。遇到中英文混排、全角半角同时出现的情况，我们就可以用『\p{Z}』匹配所有的空白字符（而不用关心空格到底是全角空格还是半角空格），用『\p{P}』匹配所有的标点字符（而不用关心逗号到底是中文逗号还是英文逗号），而不用费心细节。

如果我们把Unicode Property理解为一个“字符组”，那么它一定能对应某个排除型字符组，此排除型字符组的通行记法是将『\p{xx}』中的小写p改为大写P，写作『\P{xx}』。这样，『\P{Z}』对应『\p{Z}』无法匹配的字符，『\p{P}』对应『\p{P}』无法匹配的字符。Unicode Block和Unicode Script对应的排除型字符组也是这样标记，下面不再赘述。

支持Unicode Property的语言有.NET、Java、PHP和Ruby（限1.9以上版本），在PHP和Ruby中使用Unicode Property时，必须要开启Unicode模式，下面以『\p{P}』的匹配为例：

.NET

Regex.IsMatch(‘，’, “\\p{P}”); //true

Java

“，”.matches(“\\p{P}”); //true

PHP

preg_match(‘/\p{P}/u’, ‘，’); //1

Ruby 1.9

‘/\p{P}/u’ =~ ‘，’ # 0

Unicode Property的完整信息，可参考http://www.regular-expressions.info/unicode.html。

Unicode Block

Unicode Block则不同于Unicode Property，它按照编码区间划分Unicode字符，每个Unicode Block中的字符编码都是落在同一个连续区间的。因为Unicode编码表中，某种语言的字符通常是落在同一区间的，所以它也可以粗略表示某类语言的字符，比如\p{InHebrew}表示希伯莱语字符，『\p{InCJK_Compatibility}』表示兼容CJK（汉语、韩语、日本语）的字符。如果你细心观察，会发现Unicod Block的名字虽然类似某种语言的名字，但都有“In”（Java风格）或者“Is”（.NET风格）前缀，这表明它其实对应的还是“落在某个区间的 Unicode字符”。

本书介绍的语言中，只有Java和.NET支持Unicode Block，它们的写法不相同：

Java：『\p{ InCJK_Compatibility_Ideographs }』

.NET：『\p{ IsCJK_Compatibility_Ideographs }』^[2]

我们可以在Java中用\p{InCJK_Compatibility}或者在.NET中用\p{IsCJK_Compatibility}粗略匹配中文字符，虽然它们可能匹配日文或者韩文字符，尚不够精确，但许多情况下确实够用了。

Java

“我”.matches(“\\p{InCJK_Compatibility_Ideographs}”); //true

.NET

Regex.IsMatch(‘我’, “\\p{IsCJK_Compatibility_Ideographs}”); //true

Unicode Block的完整信息，可参考http://www.regular-expressions.info/unicode.html。

Unicode Script

Unicode Script按照字符所属的书写系统来划分Unicode字符，比如\p{Greek}表示希腊语字符，\p{Han}表示汉语（中文字符）。它的写法类似Unicode Block，只是名字的开头没有“Is”或者“In”。

在本书介绍的语言中，只有PHP和Ruby（限1.9以上版本）支持Unicode Script，PHP在使用Unicode Script时，必须开启Unicode模式（详见xx页）。在这两种语言中，我们可以很方便地用\p{Han}来匹配中文字符。

PHP

preg_match(‘/\p{Han}/u’, ‘我’); //1

Ruby 1.9

/\p{Han}/u =~ '我' #0

Unicode Script的完整信息，请参考http://www.regular-expressions.info/unicode.html。

小结

用正则表达式处理包含多字节字符（比如中文）的字符串时，最好使用Unicode编码，否则多字节字符很可能被割裂为多个字节，导致匹配错误，最好的办法是使用Unicode编码。

如果实在不能使用Unicode编码，使用字符组时要尤其小心，普通字符组可以用多选分支取代，绕过隐患，但这种办法对排除型字符组行不通。

如果设定了Unicode模式，可以指定Unicode Code Point来表示某个字符，但不同语言中的记法不同，可能是\uxxxx、\u{xxxx}、\x{xxxx}。

Unicode Property描述Unicode字符的属性，.NET、Java、PHP和Ruby（限1.9以上版本）中可以使用Unicode Property。

Unicode Block描述Unicode字符所在的区间，其特征是名称以In或Is为前缀，.NET和Java中可以使用Unicode Block。

Unicode Script描述Unicode字符所在的书写系统，名字类似Unicode Block，但没有In或Is前缀，PHP和Ruby（限1.9以上版本）中可以使用Unicode Script。

无论Unicode Property、Unicode Block、Unicode Script，其对应的排除型字符组都是将开头的\p改为\P，其它不变。

无论Unicode Property、Unicode Block、Unicode Script，都可以视为普通字符组，在字符组[…]中进行拼接组合，比如在PHP和Ruby中，[\p{Han}\p{Po}]既可以匹配汉字字符，又可以匹配任何标点字符。

[1] 请参考 http://en.wikipedia.org/wiki/CJK_Unified_Ideographs

原文地址：http://www.infoq.com/cn/news/2011/03/regular-expressions-unicode-2#_ftnref1_4383

[2] 注意：此处可能有误，需要更正。

原文下发有人评论：

09/03/2011 10:31 发表人 huang wade

.net的具名區塊沒有[ _ ]如:IsCJK_Compatibility_Ideographs,應該是IsCJKCompatibilityIdeographs

可參考:
msdn.microsoft.com/zh-tw/library/20bw873z.aspx#...

作者回复：

31/03/2011 08:48 发表人 余晟

非常感谢您指出问题，我来更正

所以，我猜测：

作者应该是忘了更正，此处以及下面出现的关于“.NET”的“IsCJK_Compatibility_Ideographs”都应该修改为“IsCJKCompatibilityIdeographs”。

（个人之见，如有不妥，欢迎交流指正。）

posted on 2011-11-12 13:41 RussellLuo 阅读(669) 评论(0) 编辑收藏举报

刷新页面返回顶部

RussellLuo