代码改变世界

正则表达式中的贪婪与非贪婪

2011-06-22 21:55  kaure  阅读(199)  评论(0编辑  收藏  举报

我们从代码开始:

Regex reg=new Regex("a.*b");
foreach (Match m in reg.Matches("aabab"))
{
Console.WriteLine(m.Value);
}
Console.WriteLine(
"-------");

reg
= new Regex("a.*?b");
foreach (Match m in reg.Matches("aabab"))
{
Console.WriteLine(m.Value);
}

最后我们得到的结果是:

aabab
-------
aab
ab

        当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,因此在a.*b下,正则尽可能多的匹配以最长的以a开始,以b结束的字符串.因此得到的结果是aabab。

     但是对于a.*?b 非贪婪模式来说,它是在保证整个匹配成功的前提下使用最少的重复。不难看出其匹配过程,从字符a开始,到aa,不匹配,再增加匹配aab, 成功。。。然后从最后一个a 再次开始搜索匹配。也就是说非贪婪的不正确使用其实有可能会造成性能的下降,比如用a.*?bz去匹配abbbbbbbbbbbbbbbbbbbbbb.......会花相当长的时间。