正则表达式在抓取网页图片中的应用-一个简单的例子

这里示范一个抓取给定网页中图片并将其下载到本地的例子,简单地涉及一些正则表达式的内容。


 明确一下任务:将下面这样一个网页中的图片抓取并全部下载到本地


方法如下:

(1)利用urllib2抓取网页的内容;

(2)发送对网页“http://www.imooc.com/course/list”的抓取请求;

(3)采用正则表达式模块 re;

  (4)  读取网页内容并保存到buf中;

 

 (5)检查一下buf的内容是否正常读取;

  (6)采用正则表达式匹配以 src= 开头,以 .jpg 结尾的字符串,因为一个这样的完整字符串代表一张图片的存放地址;

 

 

  (7)匹配结果:

 

    (8)  看来还需要提取一下其中的url部分:

   (9)将图片下载下来,并命名,保存到本地:

 

  (10)结果如下:


 这一类的问题可做相似的推广,只需要根据问题改写相应的正则表达式。

 

posted @ 2017-09-06 21:09  Ping的博客  阅读(1195)  评论(0编辑  收藏  举报