正则表达式中的贪婪与非贪婪
2011-06-22 21:55 kaure 阅读(199) 评论(0) 编辑 收藏 举报我们从代码开始:
Regex reg=new Regex("a.*b");
foreach (Match m in reg.Matches("aabab"))
{
Console.WriteLine(m.Value);
}
Console.WriteLine("-------");
reg = new Regex("a.*?b");
foreach (Match m in reg.Matches("aabab"))
{
Console.WriteLine(m.Value);
}
最后我们得到的结果是:
aabab
-------
aab
ab
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,因此在a.*b下,正则尽可能多的匹配以最长的以a开始,以b结束的字符串.因此得到的结果是aabab。
但是对于a.*?b 非贪婪模式来说,它是在保证整个匹配成功的前提下使用最少的重复。不难看出其匹配过程,从字符a开始,到aa,不匹配,再增加匹配aab, 成功。。。然后从最后一个a 再次开始搜索匹配。也就是说非贪婪的不正确使用其实有可能会造成性能的下降,比如用a.*?bz去匹配abbbbbbbbbbbbbbbbbbbbbb.......会花相当长的时间。