正则表达式笔记

单个字符的匹配

一.单个字符或字符串

二.匹配任意的字符使用“.”,可以像.ea来匹配所有三个字符,三个字符中第一个字符是任意的。如果想单个字符的话,可以使用[dt],匹配d或t。

三.匹配区间[a-z][0-9]如果是想即表示字母和数字的话,[0-9a-z]

四.可以使用^来表示取反,经常和单个字符使用或范围模式使用如[^a]:表示不为a的匹配,[^1-3^a-z]表示不为1-3和a-z的匹配。注意^的优先级是最弱的,也就是其他的匹配完才会匹配。

五.匹配特殊字符,可以使用转义字符\,如果经常写[0-9]或者[^0-9]还是比较累的。现在给出其简化形式\d,\D,字母数字下划线的写法为[a-z0-9A-Z_]同样其也对应着简化的方法\w同样非字母数字下划线[^a-z0-9A-Z_]是大写的\W,感觉不是非常用的有个\s来匹配空字符。考虑到兼容性的问题,可以使用单独的[\f\n\r\t\v]来表示。尽量慎用\s。

多个字符的匹配

1.匹配一个或多个使用+。如果想匹配一个邮箱的,可以使用“\w+@\w+\.\w+”。 为了能够匹配像jimmy.dev.design@hotmail.com 的字符串,可以使用[\w.]+@[\w.]+\.\w+

2.匹配零个或者是多个使用*,上面的正则表达式可以匹配.jimmy.dev.design@hotmail.com,如果使用[\w.]+@[\w.]+\.\w+ 应该就可以避免以.开头的字符串

3.匹配零个或一个字符串使用?。

4.匹配指定书目字符串{n},其中n表示个数。如\d{3}表示000-999,电话号码,如果是想匹配第一个是1,第二个是3或5,后九位随便的数字都可以1[35]\d{9}.有时我们可能需要用到0-999,而不是使用的000,如果是使用动态的位数可以使用{m,n}可以使用{m,}来表示m个到无穷多个.如果使用\d{1,3}对于1234,还是可以匹配的。因为匹配了两次。

5.贪婪匹配和惰性匹配

贪婪匹配是一直到不匹配才停止,

惰性匹配是发现了匹配就停止。

对比一种情况:

Jimmy is a <b>junior</b> developer <b>living</b> in <b>xi'an</c>.

<b>.*</b>和<b>.*?</b> 的区别应该还是比较明显的,因为前面的是贪婪的,后面的是惰性的。前者的匹配结果表示的<b>junior</b> developer <b>living</b>,后者表示的结果是两个字符串:

<b>junior</b>和<b>living</b>

贪婪和惰性匹配的区别主要是在下面的几种场合

贪婪匹配

惰性匹配

匹配描述

?

??

匹配0个或1个

+

+?

匹配1个或多个

*

*?

匹配0个或多个

{n}

{n}?

匹配n个

{n,m}

{n,m}?

匹配n个或m个

{n,}

{n,}?

匹配n个或多个

边界匹配

一、匹配单词边界。使用\b来匹配后面的字符位于字符串首位的字符。如 a cat at home 使用\bat来匹配at。当然如果想限制是以t结束的,也可以\bat\b

二、边界及其相对性:空格、段落首行、段落末尾、逗号、句号 以及-都可以作为边界。

2.1普通字符,边界是空格、分隔符、逗号、句号。

aaaaxaaaa aaa-x-aaa \bx\b只会匹配第二个x

2.2边界字符,边界是普通字符。

aaaa,aaaa aaa-,-aaa “\b,\b”只会匹配第一个,

2.3匹配非单词边界:与\b相对应,也就是\B

三、匹配文本

^除了在[]里面使用表示取反,还有一种用途是表示匹配文本的开头位置。

city.jpg、city1.jpg are all beautiful pictures except city9.jpg

^city\d?\.jpg只能取到第一个city.jpg

如果是开头部分有空格可以使用^\s*city\d?\jpg

与上面对应的找到最后一个city9.jpg可以使用$

city\d?\.jpg\s*$

此处的^和$可以看成像\b和\B对应的一组用途

匹配子模式

一、子模式:使用()将模式中的子字符串括起来,已形成一个子模式,然后再把子模式看成一个单个字符串。好像小学的混合运算。如This is the second line.<br><br/><br />

(<br\s*/?>){2,}

二、或模式:使用“|”

获取<b></b><i></i>

The <b>text of</b> this row is bold. The <i>text of</i> this row is italic.

</?i>|</?b>

三、在子模式中使用或模式

匹配出1900-2099年的

1932 is supposed to be matched as a whole, but it is matched only part of it. 2055 is mathced in the right way. 3019 is out of range, but it's still matched partly.

(19|20)\d{2}

四、子模式可以继续嵌套子模式

我们要匹配 1900年1月1日 到 2000年1月1日 除过闰年外的所有正确日期:

下面分为年,月日两步实现

年:19\d{2}|2000

月份根据天数来划分:

2月28天 :2-([1-9]\b|1\d|2[0-8])

1、3、5、7、8、10、12:([13578]|1[02]-([1-9]\b|[12]\d|3[01]))

7. 4、6、9、11月,天数是30; Reg:([469]|11)-([1-9]\b|[12]\d|30)

综上:(19\d{2}|2000)-(2-([1-9]\b|1\d|2[0-8])|([13578]|1[02])-([1-9]\b|[12]\d|3[01])|([469]|11)-([1-9]\b|[12]\d|30))

向后引用

1.1理解向后引用和常用实例

正则表达式中,使用“\数字”来进行后向引用,数字表示这里引用的是前面的第几个子模式。Is the cost of of gasline going up up?

可以使用(of|up) \1或((of|up)\b ??){2}进行匹配重复的of和up,但是后者遇到of up也可以匹配。

\1代表的是与括号中的一个选项,除此之外,还要注意\1前面的空格

1.2向后引用在html中经常使用的一个实例

匹配h{n}标签

<h1>This is a valid header</h1> <h2>This is not valid.</h3>

<h([1-6])>.*?</h\1>

1.3.net中的后引用

在 .Net 中使用正则表达式进行查找时,给子模式命名的语法是:?<name>,后向引用的语法是:\k<name>。

<h(?<sub>[1-6])>.*?</h\k<sub>> 和上面<h([1-6])>.*?</h\1>的效果一样

文本替换

1.使用向后引用替换文本

需要注意的是:大部分语言的正则表达式实现,在查找中,使用后向引用来代表一个子模式,其语法是“\数字”;而在替换中,其语法是“$数字”。

string str = "<h1>This is a valid header</h1> <h2>This is not valid.</h3>";

string pattern = @"<h1>(.*?)</h1>";

string replace = @"<h1 style='fontsize:15px'>$1</h1>";

string result=  Regex.Replace(str, pattern, replace);

Console.WriteLine(result);

以上例子 ,“$1”代表了<h1></h1>之间的文本。 结果为:

<h1 style='fontsize:15px'>This is a valid header</h1> <h2>This is not valid.</h3>

2.使用全匹配替换成自己希望的类型

将(029)88401132 替换成029-88401132

思路是:想将上面的电话号码全匹配,然后再使用向后引用来替换。

全匹配的正则是\((\d{3})\)(\d{8})

使用绿色的为1,使用蓝色的为2,所以可以使用replace=@”$1-$2”;

预查和非获取匹配

1.非获取匹配(不能被后面使用,减少开支)

正则表达式中,可以在子模式内部前面加“?:”来表示这个子模式是一个 非获取匹配,非获取匹配不会被保存,不能在后向引用中获取。

在查找匹配时使用子模式和非获取匹配都可以实现相同的效果,但是获取的不能在后面的引用中使用。如下面的匹配:

Windows 1.03 and Windows 2.0 fisrt Released in 1985 and 1987 respectively.

Windows 95 and Windows 98 are the successor.

Then Windows 2000 and Windows Xp appeared.

Windows Vista is the Latest version of the family.

Windows (?:[\w.]+\b)或者Windows ([\w.]+\b) 都可以匹配到Windows 版本。

2.正向预查

可以理解为后面内容与子模式想匹配

子模式内部 前面加“?=”,表示的意思是:首先,要匹配的文本必须满足此子模式 前面 的表达式(本例,“Windows ”);其次,此子模式不参与匹配。

还用上面的例子,匹配数字类型的版本,并且不要选中版本号。

Windows(?=[\w.]+\b)

正向预查的理解

1. 先进行普通匹配:Windows ([\d.]+\b)

2. 然后从匹配文本中将 子模式 内的文本排除掉。

3.反向预查

反向预查 的语法是在子模式内部前面加“?<=”,表示的意思是:首先,要匹配的文本必须满足此子模式 后面 的表达式(本例,“\d+.\d+”);其次,此子模式不参与匹配。

CNY: 128.04

USD: 22.5

USD: 23.5

HKD: 1533.5

CNY: 23.78

选中开头是CNY:的金额。CNY: \d+.\d+

下面是正反相结合的例子

<h1>This is header.</h2>

<h2>This is header,too.</h2>

<span>This is not a header.</span>

(?<=<h([1-6])>).*?(?=</h\1>)

4.负正向预查 和“\b与\B”的对应关系相似,和正向预查相对应。

匹配非数字类型的版本,并且不要选中版本号

在正则表达式中,可以在子模式内部前面加 “?!” 来形成一个 负正向预查,它的效果与 “?=” 相反

Windows( ?![\d.]+\d+)

5.反负向

在正则表达式中,可以在子模式内部前面加 “?<!” 来形成一个 负反向预查,它的效果与“?<=” 相反。

匹配不为CNY的价格:

(?<!CNY: )\b\d+\.\d+

posted @ 2013-10-09 10:07  haiziguo  阅读(355)  评论(0编辑  收藏  举报