正则表达式使用心得

最近需要使用正则表达式捕获网页内容。一些心得记录如下

1.贪婪模式和非贪婪模式：正则表达式默认是贪婪模式，也就是说在满足条件的情况下尽量多捕获内容，而非贪婪模式则相反，尽量捕获少的内容，往往需要捕获如<tr><td><table><tr></tr></table></td></tr>最内层<tr></tr>需要使用非贪婪模式，如果需要捕获到最外层<tr></tr>需要使用贪婪模式。二者的区别在于f非贪婪模式使用.*?

2.捕获分组。使用括号对正则式进行分组，然后使用Group索引获取捕获的分组内容