正则入门实例拓展

本篇主要介绍Perl(以及其他流派的正则)提供的简记法(shorthands),以及修改文本中使用的正则环视特性,包括几个举例。在看这篇之前,不管你是否精通正则,建议首先看下这篇《正则基础与细节回顾》,因为强大的正则里面,需要关注的细节太多了。

1.常用空白和任意字符匹配


\s[ \t]*: 匹配空白
.*: 匹配任何字符. .号通配符,*任意个数,可以为零。

2.Perl(以及其他流派的正则)提供的简记法(shorthands):


\b: 单词分界符
\t: 制表符
\n: 换行符
\r: 回车符
\s: 匹配任何空白符 (space, tab, newline, formfeed, and such)
\S: 除\s之外任何字符
\w: 相当于[a-zA-Z0-9_]
\W: 除\w之外任何字符,相当于[ˆa-zA-Z0-9_]
\d: 相当于[0-9]
\D: 除\d之外任何字符,相当于[ˆ0-9]"

3.使用正则修改文本


3.1捕获


Perl可以使用$1,$2,$3之类的变量来保存相对应的(···)括号内的子表达式匹配的文本。子表达式的编号按照开括号出现的先后顺序,从1开始,子表达式可以嵌套,比如(Washington( DC)?)。我们修改文本,可能会保留某些原文本,那么使用$1这类的变量就可以实现。简单的举一个例子,比如说我们想给所有的数字加上双引号,我们可以使用(\d)+匹配到所有的数字后,替换结果用"$1"取代,最终到达我们想要的效果。


(?:···)这种写法可以用来分组文本,但是并不捕获。(···)当然也可以分组,但是副作用就是他们捕获的文本依然会保存在特殊的变量中。比如(A\d)+,我们只是想让字母A和一个数字组合起来,但是这样正则依旧会捕获到括号中的内容并且记录,虽然看似没有多大影响,但是对于文本量比较大的文件,为了增加匹配效率,我们可以使用(?:A\d)+,这个时候再用类似$1这样的变量,就获取不到引用的文本了。

3.2环视(lookaround)


我们先来想一个问题,假如我们有诸如3567657745这样一批代表数量的数字,一般为了方便,我们会这样写3,567,657,745。为了解决这个问题,我们首先想到的是从右向左每隔3个数字加个逗号,并且逗号前面必须有数字,但是正则一般都是从左向右工作的。那么接下来我们就介绍正则的环视特性。

首先强调的是,环视不匹配任何字符,只匹配文中的特定位置,这一点和单词分解符\b、锚点^$相似。但是,环视更加通用。

环视有四种类型,参考以下表格

类型 正则表达式 匹配成功的条件...
肯定顺序环视 (?=···) 子表达式能匹配右侧文本
否定顺序环视 (?!···) 子表达式不能匹配右侧文本
肯定逆序环视 (?<=···) 子表达式能匹配左侧文本
肯定逆序环视 (?<!···) 子表达式不能匹配左侧文本

了解这些后,我们继续回到给数字加逗号的问题,首先思考3的倍数,3的倍数很好处理,直接(\d\d\d)+$,加上$来保证数字后面不存在其他字符。,在左边是数字,我们可以使用(?<=\d)来限定匹配的位置,于是整个正则表达式就是(?<=\d)(?=(\d\d\d)+$)。其实这样子还是不太好,因为里面存在括号,括号中的内容会被特定的变量&1等引用,所以我们最好使用只是分组的(?:···)来处理一下,于是变成了(?<=\d)(?=(?:\d\d\d)+$),猛一看上去有点难以理解,但是一步一步看,还是挺清晰的。我们已经知道,环视不会匹配任何字符,只是匹配位置,匹配到这样的位置后,我们只要插入一个逗号即可,于是替换文本只需要是,就可以了,我们看下处理前后的效果。


掌握了环视,我们回头来想一下\b这个单词分界符,如果单词分解符的意思是,一侧是\w,另外一侧不是\w,那么我们就可以用(?<!\w)(?=\w)来表示单词的起始分解符,用(?<=\w)(?!\w)来表示单词的结束分界符,那么两则结合起来,(?<!\w)(?=\w)|(?<=\w)(?!\w)就等价于\b。当然如果语言本身支持\b就不要多此一举了,\b简洁效率又高。

补充一点,刚才我们给数字加逗点中,保证了结尾不是其他字符,那么像23456323s是匹配不到的,使用了$,千万要理解清楚,去掉$后将会是这样子,图片中匹配到的灰色位置。

为了匹配23456323s,其实这里只需要结尾不是数字就可以了。我们使用简记法\d来匹配数字,那么尾部不是数字就可以使用(?!\d)来表示了,所以最终的正则可以这样写(?<=\d)(?=(?:\d\d\d)+(?!\d))

这里强调一点,非数字,我们可能会想到\D\D的意思是,“匹配一个不是数字的字符”,而这个字符是必须的,假如正好处于行尾,没有任何字符,是匹配不到的。上一篇中我们已经强调过这一点。

环视类型中,顺序和逆序所获取的支持十分有限(使用也不广泛),顺序比逆序早出现几年,尽管Perl支持两着,其他语言就难说了,所以接下来我们不使用逆序环视来解决给数值添加逗号问题。(\d)(?=(?:\d\d\d)+(?!\d))左侧使用捕获型括号,替换文本只需要在逗号前面加上$1即可,也就是$1,,同样到达了我们预期的效果。

更多实例,可以参考《Mastering Regular Expressions》第三版,里面使用Perl语言,举了诸多实例,有兴趣的朋友可以参考下,当然也可以参考中文翻译版本《精通正则表达式》。希望本篇文章可以帮组你更好的掌握正则。

posted @ 2018-01-26 10:59  superxjhw  阅读(1113)  评论(0编辑  收藏  举报