目录
一、正则基础
1.1 元字符
字符 描述
\ 将下一个字符标记为特殊字符或原义字符或向后引用或八进制转义符。例如:n匹配字符n。\n匹配一个换行符。串行\\匹配\而\(则匹配(
^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配\n或\r之后的位置
$ 匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配\n或\r之前的位置
* 匹配前面的子表达式零次或多次。例如:zo*能匹配z以及zoo。*等价于{0,}
+ 匹配前面的子表达式一次或多次。例如:zo+能匹配zo以及zoo,但不能匹配z。+等价于{1,}
? 匹配前面的子表达式零次或一次。例如:do(es)?可以匹配does或does中的do。?等价于{0,1}
{n} n是一个非负整数。匹配确定的n次。例如:o{2}不能匹配Bob中的o,但是能匹配food中的两个o
{n,} n是一个非负整数。至少匹配n次。例如:o{2,}不能匹配Bob中的o,但能匹配foooood中的所有o。o{1,}等价于o+。o{0,}则等价于o*
{n,m} m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。例如:o{1,3}将匹配fooooood中的前三个o。o{0,1}等价于o?
? 当该字符紧跟在任何一个其他限制符(*,+,?,{n},{n,},{n,m})后面时,匹配模式是非贪婪的。
非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如:字符串oooo,o+?将匹配单个o,而o+将匹配所有o
. 匹配除\n之外的任何单个字符。要匹配包括\n在内的任何字符,请使用像(.|\n)的模式
(pattern) 匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到。要匹配圆括号字符,请使用\(或\)
(?:pattern) 匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。
这在使用或字符(|)来组合一个模式的各个部分是很有用。例如industr(?:y|ies)就是一个比industry|industries更简略的表达式
(?=pattern) 正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
例如:Windows(?=95|98|NT|2000)能匹配Windows2000中的Windows,但不能匹配Windows3.1中的Windows。
预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始
(?!pattern) 正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。
例如:Windows(?!95|98|NT|2000)能匹配Windows3.1中的Windows,但不能匹配Windows2000中的Windows。
预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始
(?<=pattern) 反向肯定预查,与正向肯定预查类拟,只是方向相反。
例如:(?<=95|98|NT|2000)Windows能匹配2000Windows中的Windows,但不能匹配3.1Windows中的Windows
(?<!pattern) 反向否定预查,与正向否定预查类拟,只是方向相反。
例如:(?<!95|98|NT|2000)Windows能匹配3.1Windows中的Windows,但不能匹配2000Windows中的Windows
x|y 匹配x或y。例如:z|food能匹配z或food。(z|f)ood则匹配zood或food
[xyz] 字符集合。匹配所包含的任意一个字符。例如:[abc]可以匹配plain中的a
[^xyz] 负值字符集合。匹配未包含的任意字符。例如:[^abc]可以匹配plain中的p
[a-z] 字符范围。匹配指定范围内的任意字符。例如:[a-z]可以匹配a到z范围内的任意小写字母字符
[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如:[^a-z]可以匹配任何不在a到z范围内的任意字符
\b 匹配一个单词边界,也就是指单词和空格间的位置。例如:er\b可以匹配never中的er,但不能匹配verb中的er
\B 匹配非单词边界。er\B能匹配verb中的er,但不能匹配never中的er
\cx 匹配由x指明的控制字符。例如:\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的c字符
\d 匹配一个数字字符。等价于[0-9]
\D 匹配一个非数字字符。等价于[^0-9]
\f 匹配一个换页符。等价于\x0c和\cL
\n 匹配一个换行符。等价于\x0a和\cJ
\r 匹配一个回车符。等价于\x0d和\cM
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]
\S 匹配任何非空白字符。等价于[^ \f\n\r\t\v]
\t 匹配一个制表符。等价于\x09和\cI
\v 匹配一个垂直制表符。等价于\x0b和\cK
\w 匹配包括下划线的任何单词字符。等价于[A-Za-z0-9_]
\W 匹配任何非单词字符。等价于[^A-Za-z0-9_]
\xn 匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。
例如:\x41匹配A。\x041则等价于\x04&1。正则表达式中可以使用ASCII编码
\num 匹配num,其中num是一个正整数。对所获取的匹配的引用。例如:(.)\1匹配两个连续的相同字符
\n 标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为一个八进制转义值
\nm 标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式,则nm为向后引用。
如果\nm之前至少有n个获取,则n为一个后跟文字m的向后引用。
如果前面的条件都不满足,若n和m均为八进制数字(0-7),则\nm将匹配八进制转义值nm
\nml 如果n为八进制数字(0-3),且m和l均为八进制数字(0-7),则匹配八进制转义值nml
\un 匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。例如:\u00A9匹配版权符号(©)
常用正则表达式
用户名 /^[a-z0-9_-]{3,16}$/
密码 /^[a-z0-9_-]{6,18}$/
十六进制值 /^#?([a-f0-9]{6}|[a-f0-9]{3})$/
电子邮箱 /^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/
电子邮箱 /^[a-z\d]+(\.[a-z\d]+)*@([\da-z](-[\da-z])?)+(\.{1,2}[a-z]+)+$/
URL /^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/
IP 地址 /((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/
IP 地址 /^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/
HTML 标签 /^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$/
删除代码\\注释 (?<!http:|\S)//.*$
Unicode编码中的汉字范围 /^[\u2E80-\u9FFF]+$/
1.2 字符转义
由于在正则表达式中“ \ ”、“ ? ”、“ . ”、“ * ”、“ ^ ”、“ $ ”、“ + ”、“ - ”、“(”、“)”、“ | ”、“ { ”、“ [ ”等字符已经具有一定特殊意义,如果需要用它们的原始意义,则应该对它进行转义,使用\
来取消这些字符的特殊意义,例如:\.
和 \*
。
1.3 分枝条件
正则表达式里的分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用|
把不同的规则分隔开。例子:0\d{2}\-\d{8}|0\d{3}\-\d{7}
这个表达式能匹配两种以连字号分隔的电话号码:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号 (0376-2233445)。
另外两个示例:
\(0\d{2}\)\d{8}|0\d{2}[- ]?\d{8}
这个表达式匹配3位区号的电话号码,其中区号可以用小括号括起来,也可以不用,区号与本地号间可以用连字号或空格间隔,也可以没有间隔。\d{5}\-\d{4}|\d{5}
这个表达式用于匹配美国的邮政编码。
1.4 分组
我们已经提到了怎么重复单个字符(直接在字符后面加上限定符就行了);但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了,你也可以对子表达式进行其它一些操作(后面会有介绍)。
(\d{1,3}\.){3}\d{1,3}
是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:\d{1,3}
匹配1到3位的数字,(\d{1,3}\.){3}
匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})
。
IP地址中每个数字都不能大于255,不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组,选择,字符类来描述一个正确的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
。
1.5 反义
有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义:
代码/语法 | 说明 |
---|---|
\W | 匹配任意不是字母,数字,下划线,汉字的字符 |
\S | 匹配任意不是空白符的字符 |
\D | 匹配任意非数字的字符 |
\B | 匹配不是单词开头或结束的位置 |
[^x] | 匹配除了x以外的任意字符 |
[^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
例子:\S+
匹配不包含空白符的字符串。
<a[^>]+>
匹配用 尖括号括起来的以a开头的字符串。
二、高级应用
2.1 后向引用
使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。
默认情况下,每个分组会自动拥有一个组号,规则是:
- 分组0对应整个正则表达式
- 从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。
- 实际上组号分配过程是要从左向右扫描两遍的:第一遍只给未命名组分配,第二遍只给命名组分配--因此所有命名组的组号都大于未命名的组号
- 你可以使用
(?:exp)
这样的语法来剥夺一个分组对组号分配的参与权
后向引用用于重复搜索前面某个分组匹配的文本。例如:\1
代表分组1匹配的文本。示例:
\b(\w+)\b\s+\1\b可以用来匹配重复的单词,像gogo或者kittykitty。这个表达式首先是一个单词,也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b),这个单词会被捕获到编号为1的分组中,然后是1个或几个空白符(\s+),最后是分组1中捕获的内容(也就是前面匹配的那个单词)(\1)。
你也可以自己指定子表达式的组名。要指定一个子表达式的组名,使用语法:(?<Word>\w+)
,或者把尖括号换成'
也行:(?'Word'\w+))
,这样就把\w+
的组名指定为Word了。要反向引用这个分组捕获的内容,你可以使用\k<Word>
,所以上一个例子也可以写成这样:\b(?<Word>\w+)\b\s+\k<Word>\b
。
后向引用是以分组为前提的,如果想要实现后向引用,则必须先进行分组。
2.2 捕获、断言
使用小括号的时候,还有很多特定用途的语法。下面列出了最常用的一些:
分类 | 代码/语法 | 说明 |
---|---|---|
捕获 | (exp) (?<name>exp) (?:exp) |
匹配exp,并捕获文本到自动命名的组里 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号 |
零宽断言 | (?=exp) (?<=exp) (?!exp) (?<!exp) |
匹配exp前面的位置 匹配exp后面的位置 匹配后面跟的不是exp的位置 匹配前面不是exp的位置 |
注释 | (?#comment) | 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读 |
捕获中第三个(?:exp)
不会改变正则表达式的处理方式,只是这样的组匹配的内容不会像前两种那样被捕获到某个组里面,也不会拥有组号。
示例1: 匹配,捕获(存储)
表达式:(?<=(href=")).{1,200}(?=(">))
解 释:(?<=(href=")) 表示 匹配以(href=")开头的字符串,并且捕获(存储)到分组中
(?=(">)) 表示 匹配以(">)结尾的字符串,并且捕获(存储)到分组中
示例2: 匹配,不捕获(不存储)
表达式:(?<=(?:href=")).{1,200}(?=(?:">))
解 释:(?<=(?:href=")) 表示 匹配以(href=")开头的字符串,并且不捕获(不存储)到分组中
(?=(?:">)) 表示 匹配以(">)结尾的字符串,并且不捕获(不存储)到分组中
零宽断言
地球人,是不是觉得这些术语名称太复杂,太难记了?我也有同感。知道有这么一种东西就行了,它叫什么,随它去吧!人若无名,便可专心练剑;物若无名,便可随意取舍……
接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言。
-
(?=exp)
也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp
。比如\b\w+(?=ing\b)
,匹配以ing
结尾的前面部分(除了ing
以外的部分),如查找I'm singing while you're dancing.
时,它会匹配sing
和danc
。 -
(?<=exp)
也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp
。比如(?<=\bre)\w+\b
会匹配以re
开头的后面部分(除了re
以外的部分),例如在查找reading a book
时,它匹配ading
。 -
str.replace(/\B(?=(?:\d{3})+\b)/g, ',');
,给1234567890.12
加上逗号便于阅读,结果是1,234,567,890.12
。 -
(?<=\s)\d+(?=\s)
这个示例使用了这两种断言,匹配前后有空白符的数字(不包括空白符)。
负向零宽断言
前面我们提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。但是如果我们只是想要确保某个字符没有出现,但并不想去匹配它时怎么办?例如,如果我们想查找这样的单词,它里面出现了字母q,但是q后面跟的不是字母u,我们可以尝试这样:
\b\w*q[^u]\w*\b
匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐,直接就观察出来了),你会发现,如果q出现在单词的结尾的话,像Iraq,Benq,这个表达式就会出错。这是因为[^u]
总要匹配一个字符,所以如果q是单词的最后一个字符的话,后面的[^u]
将会匹配q后面的单词分隔符(可能是空格,或者是句号或其它的什么),后面的\w*\b
将会匹配下一个单词,于是\b\w*q[^u]\w*\b
就能匹配整个Iraqfighting。负向零宽断言能解决这样的问题,因为它只匹配一个位置,并不消费任何字符。
零宽度负预测先行断言(?!exp)
,断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)
匹配三位数字,而且这三位数字的后面不能是数字;\b((?!abc)\w)+\b
匹配不包含连续字符串abc的单词。
同理,我们可以用(?<!exp)
,零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp:(?<![a\-z])\d{7}
匹配前面不是小写字母的七位数字。
请详细分析表达式(?<=<(\w+)>).*(?=<\/\1>)
,这个表达式最能表现零宽断言的真正用途。
一个更复杂的例子:(?<=<(\w+)>).*(?=<\/\1>)
匹配不包含属性的简单HTML标签内里的内容。(<?(\w+)>)
指定了这样的前缀:被尖括号括起来的单词(比如可能是<b>
),然后是.*
(任意的字符串),最后是一个后缀(?=<\/\1>)
。注意后缀里的\/
,它用到了前面提过的字符转义;\1
则是一个反向引用,引用的正是捕获的第一组,前面的(\w+)
匹配的内容,这样如果前缀实际上是<b>
的话,后缀就是</b>
了。
注释
小括号的另一种用途是通过语法(?#comment)
来包含注释。例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)
。
要包含注释的话,最好是启用【忽略模式里的空白符】选项,这样在编写表达式时能任意的添加空格,Tab,换行,而实际使用时这些都将被忽略。启用这个选项后,在#后面到这一行结束的所有文本都将被当成注释忽略掉。例如,我们可以前面的一个表达式写成这样:
(?<= # 断言要匹配的文本的前缀
<(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)
) # 前缀结束
.* # 匹配任意文本
(?= # 断言要匹配的文本的后缀
<\/\1> # 查找尖括号括起来的内容:前面是一个"/",后面是先前捕获的标签
) # 后缀结束
2.3 贪婪与懒惰
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b
,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。
有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?
。这样.*?
就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。a.*?b
会匹配aab(第1到第3个字符)和ab(第4到第5个字符)。
为什么第一个匹配是aab(第1到第3个字符)而不是ab(第2到第3个字符)?简单地说,因为正则表达式有另一条规则,比懒惰/贪婪规则的优先级更高:最先开始的匹配拥有最高的优先权。
懒惰限定符:
代码/语法 | 说明 |
---|---|
*? | 重复任意次,但尽可能少重复 |
+? | 重复1次或更多次,但尽可能少重复 |
?? | 重复0次或1次,但尽可能少重复 |
{n,m}? | 重复n到m次,但尽可能少重复 |
{n,}? | 重复n次以上,但尽可能少重复 |
三、.Net中的正则
3.1 处理选项
在C#
中,你可以使用Regex(String, RegexOptions)
构造函数来设置正则表达式的处理选项。 如:
Regex regex = new Regex(@"\ba\w{6}\b", RegexOptions.IgnoreCase);
上面介绍了几个选项如忽略大小写,处理多行等,这些选项能用来改变处理正则表达式的方式。下面是.Net中常用的正则表达式选项:
常用的处理选项:
名称 | 说明 |
---|---|
IgnoreCase(忽略大小写) | 匹配时不区分大小写。 |
Multiline(多行模式) | 更改^ 和` |
---------- | -------------- |
IgnoreCase(忽略大小写) | 匹配时不区分大小写。 |
的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$ 的精确含意是:匹配\n 之前的位置以及字符串结束前的位置) |
|
Singleline(单行模式) | 更改.的含义,使它与每一个字符匹配(包括换行符\n )。 |
IgnorePatternWhitespace(忽略空白) | 忽略表达式中的非转义空白并启用由#标记的注释。 |
ExplicitCapture(显式捕获) | 仅捕获已被显式命名的组。 |
一个经常被问到的问题是:是不是只能同时使用多行模式和单行模式中的一种?答案是:不是。这两个选项之间没有任何关系,除了它们的名字比较 相似(以至于让人感到疑惑)以外。
3.2 平衡组/递归匹配
这里介绍的【平衡组】语法是由.Net Framework
支持的,其它语言不一定支持这种功能,或者支持此功能但需要使用不同的语法。
有时我们需要匹配像( 100 * ( 50 + 15 ) )
这样的可嵌套的层次性结构, 这时简单地使用. + .+
则只会匹配到最左边的左括号和最右边的右括号之间的内容(这里我们讨论的是贪婪模式,懒惰模式也有下面的问题)。假如原来的字符串里的左括号和右括号出现的次数不相等,比如( 5 / ( 3 + 2 ) ) )
,那我们的匹配结果里两者的个数也不会相等。有没有办法在这样的字符串里匹配到最长的,配对的括号之间的内容呢?
为了避免(
和\(
把你的大脑彻底搞糊涂,我们还是用尖括号代替圆括号吧。现在我们的问题变成了如何把xx <aa
这里需要用到以下的语法构造:
(?'group')
把捕获的内容命名为group
,并压入堆栈(Stack)(?'-group')
从堆栈上弹出最后压入的名为group
的捕获内容,如果堆栈本来为空,则本分组的匹配失败(?(group)yes|no)
如果堆栈上存在名为group
的捕获内容,继续匹配yes
部分表达式,否则继续匹配no
部分(?!)
零宽负向先行断言,由于没有后缀表达式,试图匹配总是失败
如果你不知道堆栈是什么东西,你就这样理解:第一个是在黑板上写一个group
,第二个是从黑板上擦掉一个group
,第三个是看黑板上内容有没有group
,如果有就继续匹配yes
部分,否则匹配no
部分。
我们需要做的是每碰到了左括号,就在压入一个Open
,每碰到一个右括号就弹出一个,到了最后就看看堆栈是否为空--如果不为空那就证明左括号比右括号多,那匹配就应该失败。正则表达式引擎会进行回溯(放弃最前面或最后面的一些字符),尽量使整个表达式得到匹配。
< #最外层的左括号
[^<>]* #最外层的左括号后面的不是括号的内容
(
(
(?'Open'<) #碰到了左括号,在黑板上写一个"Open"
[^<>]* #匹配左括号后面的不是括号的内容
)+
(
(?'-Open'>) #碰到了右括号,擦掉一个"Open"
[^<>]* #匹配右括号后面不是括号的内容
)+
)*
(?(Open)(?!)) #在遇到最外层的右括号前面,判断黑板上还有没有没擦掉的"Open";如果还有,则匹配失败
> #最外层的右括号
平衡组的一个最常见的应用就是匹配HTML
,下面这个例子可以匹配嵌套的<div>
标签:<div[^>]*>[^<>]*(((?'Open'<div[^>]*>)[^<>]*)+((?'-Open'</div>)[^<>]*)+)*(?(Open)(?!))</div>
。
3.3 其他补充
上边已经描述了构造正则表达式的大量元素,但是还有很多没有提到的东西。下面是一些未提到的元素的列表,包含语法和简单的说明。
代码/语法 | 说明 |
---|---|
\a | 报警字符(打印它的效果是电脑嘀一声) |
\b | 通常是单词分界位置,但如果在字符类里使用代表退格 |
\t | 制表符,Tab |
\r | 回车 |
\v | 竖向制表符 |
\f | 换页符 |
\n | 换行符 |
\e | Escape |
\0nn | ASCII代码中八进制代码为nn的字符 |
\xnn | ASCII代码中十六进制代码为nn的字符 |
\unnnn | Unicode代码中十六进制代码为nnnn的字符 |
\cN | ASCII控制字符。比如\cC代表Ctrl+C |
\A | 字符串开头(类似^,但不受处理多行选项的影响) |
\Z | 字符串结尾或行尾(不受处理多行选项的影响) |
\z | 字符串结尾(类似$,但不受处理多行选项的影响) |
\G | 当前搜索的开头 |
\p | Unicode中命名为name的字符类,例如\p |
(?>exp) | 贪婪子表达式 |
(? |
平衡组 |
(?im-nsx:exp) | 在子表达式exp中改变处理选项 |
(?im-nsx) | 为表达式后面的部分改变处理选项 |
(?(exp)yes|no) | 把exp当作零宽正向先行断言,如果在这个位置能匹配,使用yes作为 此组的表达式;否则使用no |
(?(exp)yes) | 同上,只是使用空表达式作为no |
(?(name)yes|no) | 如果命名为name的组捕获到了内容,使用yes作为表达式;否则使用 no |
(?(name)yes) | 同上,只是使用空表达式作为no |