[脚本收集]提取国家地理图片

1. 利用urllib2.urlopen取得页面的内容
2. 利用正则表达式取得src标签为.jpg的URL
3. 保存图片


urllib2是python的一个获取url(Uniform Resource Locators,统一资源定址器)的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时 也提供了一个稍微复杂的接口来处理常见的状况-如基本的认证,cookies,代理,等等。这些都是由叫做opener和handler的对象来处理的。

高级功能:
1. 注意http://photography.nationalgeographic.com/ngs_pod_ext/searchPOD.jsp?month=08&day=26&year=2009&page=
最好能实现把某年的所有图片都一个一个保存下来(省掉多少Save的

Code

工作啊)
2. 把获得的图片保存在制定目录下
3. 实现GUI获取指定网址下图片(比如163相册,Tripntale相册)

1. 初始版本:只能得到图片的信息,并没有真正保存到本地.

Code

2. 优化后的版本,对页面所有img标签进行过滤,并查出每日一图的照片,保存到本地目录。

Code

 

3. 在考虑如何保存到本地的时候, 遇到一个问题,在嵌套参数化month和day,其中month在(1,13)之间,day在(1, 32)之间,这个时候我一直不知道该怎么去操作,在chinaunix问了,也没人理我,估计是因为问题太简单。。。

    后来在详细研究语法的时候看到print [(x, y) for x in range(3) for y in range(3)],我才恍然大悟,原来还可以这样用啊,于是就产生了一下的版本:(还没来得及调,待调试通过,我会更新,不过基本思路是一样的)


posted @ 2009-09-04 00:17  小楼  阅读(2732)  评论(4编辑  收藏  举报