摘要: 爬取图片可真的是一个可遇不可求的机会。 有需求就会动力。 目标:爬取某个网站上n多页的链接,每个链接有n多张图片,每一页对应一个文件夹,每个文件夹包含n个链接所对应的文件夹。 步骤1:获得网页的所有链接,访问所有链接,获得链接里的图片地址。 这一步通过上一篇文章的学习,同时写好正则匹配,就可以简单地完成。 步骤2:根据图片地址下载图片。 下载jpg格式的图片其实很容易。1 socket = urllib2.urlopen(url)2 data = socket.read()3 with open(path, "wb") as jpg:4 jpg.write(da... 阅读全文
posted @ 2012-10-08 23:45 coltfoal 阅读(9912) 评论(6) 推荐(3) 编辑