正则表达式在抓取网页图片中的应用-一个简单的例子
这里示范一个抓取给定网页中图片并将其下载到本地的例子,简单地涉及一些正则表达式的内容。
明确一下任务:将下面这样一个网页中的图片抓取并全部下载到本地
方法如下:
(1)利用urllib2抓取网页的内容;
(2)发送对网页“http://www.imooc.com/course/list”的抓取请求;
(3)采用正则表达式模块 re;
(4) 读取网页内容并保存到buf中;
(5)检查一下buf的内容是否正常读取;
(6)采用正则表达式匹配以 src= 开头,以 .jpg 结尾的字符串,因为一个这样的完整字符串代表一张图片的存放地址;
(7)匹配结果:
(8) 看来还需要提取一下其中的url部分:
(9)将图片下载下来,并命名,保存到本地:
(10)结果如下:
这一类的问题可做相似的推广,只需要根据问题改写相应的正则表达式。
hungry?