【Python】:简单爬虫作业

Posted on 2015-07-26 10:19  Sunday是只喵  阅读(281)  评论(0编辑  收藏  举报

使用Python编写的图片爬虫作业:

 1 #coding=utf-8
 2 
 3 import urllib
 4 import re
 5 
 6 def getPage(url):
 7     #urllib.urlopen(url[, data[, proxies]]) :
 8     #创建一个表示远程url的类文件对象,
 9     #然后像本地文件一样操作这个类文件对象来获取远程数据
10     page = urllib.urlopen(url)
11     return page.read()
12 
13 def downloadImg(content):
14     #匹配任意的jpg文件连接
15     pattern = r'src="(.+?\.jpg)" pic_ext'
16     #可以把正则表达式编译成一个正则表达式对象
17     m = re.compile(pattern)
18     #可以获取字符串中所有匹配的字符串
19     urls = re.findall(m, content)
20     
21     #遍历urls数组所有元素
22     for i, url in enumerate(urls):
23         #urllib.urlretrieve(url[, filename[, reporthook[, data]]])
24         #直接将远程数据下载到本地
25         urllib.urlretrieve(url, "%s.jpg" % (i, ))
26         
27 content = getPage("http://tieba.baidu.com/p/2460150866")
28 downloadImg(content)