摘要:
urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数创建自定义Opener对象。1. build_opener([handler1 [ handler2, ... ]])参数handler是Handler实例,常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。build_opener ()返回的对象具有open()方法,与urlopen()函数的功能相同。如果要修改http报头,可以用:import urllib2opener = ur 阅读全文
摘要:
urllib模块提供了一些高级接口,用于编写需要与HTTP服务器交互的客户端。典型的应用程序包括从网页抓取数据、自动化、代理、网页爬虫等。在Python 2中,urllib功能分散在几个不同的库模块中,包括urllib、urllib2、urlparse等。在Python 3中,所有功能都合并在urllib包中。1. urlopen(url[,data[,timeout]])要抓取html网页,很简单import urllib2response=urllib2.urlopen('http://www.google.com') urlopen创建一个表示远程url的类文件对象,然后 阅读全文