[脚本收集]提取Tripntale图片

自从上次从国家地理上取得图片之后，我又产生新的想法:要从Tripntale上取得照片.Tripntale是一个很不错网络相册，尤其是对那些比较喜欢旅游的同志。

1. 轮询每个照片的网页

page = urllib2.urlopen("http://www.tripntale.com/pic/8238/424541")
response = page.read()

2. 通过研究图片的属性，写出合适的正则表达式。

通过研究上面的图片，我们得到实际图片的html代码是：

在这里，除了src的内容和alt的内容外，其他都是固定的，我们不关心alt的内容，所以只要专注在怎么匹配src上。

这里提供的正则表达式是：imgre = '.*s3.amazonaws.com/img\\.tnt.*/(.+?)\".*ctl00_RightContent_imageHolder.*'

3. 利用re模块的findall，得到图片的名称

result = re.findall(imgre, response, re.S)
print result

4. 保存图片到本地

这里要用到urllib模块的urlretrieve方法

posted @ 2009-09-29 16:34 小楼阅读(553) 评论(0) 编辑收藏举报

刷新页面返回顶部