record-12 爬虫程序练习
#__author: hasee #date: 2018/1/20 from urllib.request import urlopen, urlretrieve from urllib.parse import quote from re import findall url = 'http://www.cdtest.cn/' # 确定URL f = urlopen(url) # 利用urlopen()打开URL资源文件 content = f.read() # 读取文件内容 # content=content.decode(encoding='utf-8') #将读取到的内容解码处理,转换成字符串 print(content) f.close() # 关闭文件 # 正则表达式中|符号表示或者 url_list = findall(r'img/.*png|img/.*jpg', content) # 利用正则表达式获取网页中所有png/jpg的图片URL,并存放在列表中 print(url_list) for u in url_list: # 循环遍历列表,依次完成列表中每一个url的处理 url1 = url + quote(u) # 网页中图片URL不完整,需要补充'http://www.cdtest.cn/',并且因为URL中包含中文,利用quote方法进行编码处理 u1 = u.split('/') # 提取图片URL中最后的图片名称,在下载时作为本地保存名称使用 path1 = 'e:\\test\\' + u1[-1] # 设置下载时,本地保存路径 urlretrieve(url1, path1) # 开始完成当前url1所标识图片资源的下载