使用Python编写的图片爬虫作业:
1 #coding=utf-8 2 3 import urllib 4 import re 5 6 def getPage(url): 7 #urllib.urlopen(url[, data[, proxies]]) : 8 #创建一个表示远程url的类文件对象, 9 #然后像本地文件一样操作这个类文件对象来获取远程数据 10 page = urllib.urlopen(url) 11 return page.read() 12 13 def downloadImg(content): 14 #匹配任意的jpg文件连接 15 pattern = r'src="(.+?\.jpg)" pic_ext' 16 #可以把正则表达式编译成一个正则表达式对象 17 m = re.compile(pattern) 18 #可以获取字符串中所有匹配的字符串 19 urls = re.findall(m, content) 20 21 #遍历urls数组所有元素 22 for i, url in enumerate(urls): 23 #urllib.urlretrieve(url[, filename[, reporthook[, data]]]) 24 #直接将远程数据下载到本地 25 urllib.urlretrieve(url, "%s.jpg" % (i, )) 26 27 content = getPage("http://tieba.baidu.com/p/2460150866") 28 downloadImg(content)