python爬虫(1)下载任意网页图片
可以下载任意网页图片
本文是一个万能油, 当然本身也存在很多缺陷,因为本身写的正则表达式比较简单
但是作为爬虫的练手项目, 以及本事的思路还是很有借鉴意义的
#!/usr/bin python
#--*-- coding:utf-8 --*--
import os
import urllib
import re
import time
import urllib2
import HTMLParser
#获取页面内容
def gethtml(url):
print u'start crawl %s ...' % url
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0'}
req = urllib2.Request(url=url,headers=headers)
try:
html = urllib2.urlopen(req).read().decode('utf-8')
html=HTMLParser.HTMLParser().unescape(html)#处理网页内容, 可以将一些html类型的符号如" 转换回双引号
except urllib2.HTTPError,e:
print u"连接失败,错误原因:%s " % e.code
return None
except urllib2.URLError,e:
if hasattr(e,'reason'):
print u"连接失败,错误原因:%s " % e.reason
return None
return html
def getImageList(html):
#reg = "http:*?\.jpg"
reg = 'http[^"}]*?(?:\.jpg|\.png|\.jpeg)'#匹配图片url的正则表达式
imgre = re.compile(reg)
imgList = re.findall(imgre,html)
return imgList
#打印所有的图片的地址并存贮到本地
def printImageList(imgList):
with open("webImage/url.txt","wb+") as f:
for i in imgList:
print i
f.write(i+"\r\n")
#下载存贮图片到本地
def download(imgList, page):
x = 1
for imgurl in imgList:
print 'Download '+imgurl
urllib.urlretrieve(imgurl,'./webImage/%s_%s.jpg'%(page,x))
x+=1
print 'Download file '+ str(x)+ ' fiel\'s end'
def downImageNum(pagenum):
page = 1
pageNumber = pagenum
while(page <= pageNumber):
html = getHtml(url)#获得url指向的html内容
imageList = getImageList(html)
printImageList(imageList)#打印所有的图片的地址
download(imageList,page)#下载所有的图片
page = page+1
if __name__ == '__main__':
print '''
*****************************************
** Welcome to python of Image **
** Modify on 2017-05-09 **
** @author: Jimy _Fengqi **
*****************************************
'''
os.system('mkdir webImage')#创建文件存贮目录
url = raw_input("enter the web page\n URL:")
if not url:
print 'the url in None , please try again'
break
downImageNum(1)
time.sleep(10)