爬虫网址

  1. #获取<a href></a>中的URL  
  2. print u'\n获取链接中URL:'  
  3. res_url = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"  
  4. link = re.findall(res_url ,  content, re.I|re.S|re.M)
  5. for url in link:  
  6.  print url  

 

(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\")"

(?<=href=\").+?(?=\")

前边是href="有一个或多个.

最后一个字符是“    前边的\是转意

 绿色部分很重要,是正则的贪婪表示,取最小部分匹配。即匹配时,为避免多取不必要部分,贪婪模式一般尽量取得满足要求的最少部分的文字或编码。

http://blog.csdn.net/eastmount/article/details/51082253 转载出处

posted on 2016-05-15 22:57  邗影  阅读(205)  评论(0编辑  收藏  举报

导航