爬虫网址

(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\")"

(?<=href=\").+?(?=\")

前边是href="有一个或多个.

最后一个字符是“ 前边的\是转意

绿色部分很重要，是正则的贪婪表示，取最小部分匹配。即匹配时，为避免多取不必要部分，贪婪模式一般尽量取得满足要求的最少部分的文字或编码。

http://blog.csdn.net/eastmount/article/details/51082253 转载出处

posted on 2016-05-15 22:57 邗影阅读(221) 评论(0) 收藏举报

刷新页面返回顶部