图片爬取百思不得姐（正则的取法，下载的方法，%s的用法） - 张家欢。。

# _*_coding:utf-8_*_
import urllib
import re
def geturl(page=1): #加了page参数
    html=urllib.urlopen("http://www.budejie.com/pic/%s"%page).read()     #%s对应后边的%page
    reg='''<img src="http://mstatic.spriteapp.cn/xx/1/w3/img/lazyload/default.png"
                 class="lazy"
                 data-original="(.*?)"'''     #多行正则的取法
    reg= re.compile(reg)
    photo=re.findall(reg,html)
    return photo
r=0
for x in xrange(18):
    print '获取第%s页'%x
    imglist = geturl(x+1)
    for i in imglist:
        r += 1   #r要有初始值
        print '正在下载%s'%r
        urllib.urlretrieve(i,'img/%s'%i.split('/')[-1]) #切片取网址的最后一段    img存图片的文档名称   urllib.urlretrieve(下载的文件，存放地址)表示下载
        print '%s下载完成'%r
print '全部处理完成，总共抓取%s张图片'%r

发表于 2016-11-18 15:47 张家欢。。阅读(651) 评论(0) 编辑收藏举报