[\s\S]*?懒惰模式特殊情形

通常理解[\s\S]*?X (X代表任意指定字符) 表示匹配任何字符的懒惰模式，一旦遇到后面出现的X便停止匹配，但实际不是如此，会尽可能的把后面的内容也匹配进去。如：

表达式 <tr[\s\S]*?>\s*<td>[\s\S]*?</td>\s*<td>[\s\S]*?</td>\s*</tr> 本来想匹配如下<tr></tr>之间的内容，

</tr>

却也能匹配

</tr>

<tr>

<td>

<tr>

</tr>

原因就在于虽然是懒惰模式，但[\s\S]*?</td>并未匹配到第一个</td>就结束，可能的原因是，系统发现如果在第一个</td>处就结束，前面的内容就不满足搜索条件，于是将[\s\S]*?继续往后匹配，直到FID</td>，使后面的内容尽量多得匹配表达式。

这可能是正则表达式[\s\S]*?的一个机制，最大可能的匹配尽量多的内容，以符合整个表达式的条件。并不局限于遇到后续第一个指定字符就停止。

解决方法：不需要[\s\S]*匹配换行时，用.代替[\s\S]或[\w\W]*等。如上述表达式写为

<tr.*?>\s*<td>.*?</td>\s*<td>.*?</td>\s*</tr>

就能准确匹配到<tr></tr>间的内容

posted on 2019-06-10 14:14 mol1995 阅读(371) 评论(0) 收藏举报

刷新页面返回顶部