摘要: urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数创建自定义Opener对象。1. build_opener([handler1 [ handler2, ... ]])参数handler是Handler实例,常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。build_opener ()返回的对象具有open()方法,与urlopen()函数的功能相同。如果要修改http报头,可以用:import urllib2opener = ur 阅读全文
posted @ 2014-02-03 14:45 再见紫罗兰 阅读(5761) 评论(1) 推荐(0) 编辑
摘要: urllib模块提供了一些高级接口,用于编写需要与HTTP服务器交互的客户端。典型的应用程序包括从网页抓取数据、自动化、代理、网页爬虫等。在Python 2中,urllib功能分散在几个不同的库模块中,包括urllib、urllib2、urlparse等。在Python 3中,所有功能都合并在urllib包中。1. urlopen(url[,data[,timeout]])要抓取html网页,很简单import urllib2response=urllib2.urlopen('http://www.google.com') urlopen创建一个表示远程url的类文件对象,然后 阅读全文
posted @ 2014-02-03 13:56 再见紫罗兰 阅读(2484) 评论(0) 推荐(0) 编辑