正则表达式
\d 可匹配一个数字,0~9中的任意一个
\w 任意一个字母或数字或者下划线,也就是A~Z,a~z,0~9,_
\s 包括空格,制表符,换页符等空白字符的其中任意一个
. 小数点可以匹配除了换行符(\n)以外的任意一个字符
以上匹配只能是一次。
要想匹配多次,则需要用到下面的
{n} 表达式重复n次
{m, n} 表达式至少重复m次,最多重复n次
{m, } 表达式至少重复m次
? 匹配表达式0次或者1次
+ 表达式至少出现1次
* 表达式不出现或者出现任意次
\b 匹配一个单词的边界,也就是单词和空格之间的位置,不匹配任何字符
\b与"^","$"类似,本身不匹配任何字符,但是它要求它在匹配结果中所处位置的左右两边,其中一边是“\w”的范围,另一边是非"\w"的范围
贪婪模式与非贪婪模式
{m, n}
{m, }
?
*
+
这些特殊符号总是尽可能多的匹配,所以叫做贪婪模式
而如果在特殊符号后面加上一个"?"号,则可以使匹配次数不定的表达式尽可能少的匹配,这就是非贪婪模式
<(\w+)\s*(\w+(=('|").*?\4)?\s*)*>.*?</\1>
匹配<td id='td1' style="bgcolor:white"></td>