二、urllib进阶
Handler处理器 和 自定义Opener
-
opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。
-
但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:
使用相关的 Handler处理器
来创建特定功能的处理器对象;
然后通过 urllib.request.build_opener()
方法使用这些处理器对象,创建自定义opener对象;
使用自定义的opener对象,调用open()
方法发送请求。
-
如果程序里所有的请求都使用自定义的opener,可以使用
urllib.resquest.install_opener()
将自定义的 opener 对象 定义为 全局opener,表示如果之后凡是调用urlopen,都将使用这个opener(根据自己的需求来选择)
简单的自定义opener()
1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 4 from urllib import request 5 6 # 构建一个HTTPHandler处理器对象,支持处理HTTP的请求 7 #http_handler = request.HTTPHandler() 8 9 # 在HTTPHandler增加参数"debuglevel=1"将会自动打开Debug log 模式, 10 # 程序在执行的时候会打印收发包的信息 11 http_handler = request.HTTPHandler(debuglevel=1) 12 13 # 调用build_opener()方法构建一个自定义的opener对象,参数是构建的处理器对象 14 opener = request.build_opener(http_handler) 15 16 request = request.Request("http://www.baidu.com/") 17 18 response = opener.open(request) 19 20 print(response.read())
这种方式发送请求得到的结果,和使用urllib2.urlopen()
发送HTTP/HTTPS请求得到的结果是一样的。
如果在 HTTPHandler()增加 debuglevel=1
参数,还会将 Debug Log 打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调试,有时可以省去抓包的工作。
ProxyHandler处理器(代理设置)
使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。
很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。
所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。
urllib.request中通过ProxyHandler来设置使用代理服务器,下面代码说明如何使用自定义opener来使用代理:
1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 4 from urllib import request 5 6 # 代理开关,表示是否启用代理 7 proxyswitch = False 8 9 10 # 构建一个Handler处理器对象,参数是一个字典类型,包括代理类型和代理服务器IP+PROT 免费代理网上搜 11 #开放代理 12 httpproxy_handler = request.ProxyHandler({"http" : "124.88.67.54:80"}) 13 14 15 #私密代理 账号密码拼接 16 # httpproxy_handler = request.ProxyHandler({'http':账号':'密码@'IP':'port'}) 17 18 19 # 构建了一个没有代理的处理器对象 20 nullproxy_handler = request.ProxyHandler({}) 21 22 if proxyswitch: 23 opener = request.build_opener(httpproxy_handler) 24 else: 25 opener = request.build_opener(nullproxy_handler) 26 27 # 构建了一个全局的opener,之后所有的请求都可以用urlopen()方式去发送,也附带Handler的功能 28 request.install_opener(opener) 29 30 requests = request.Request("http://www.baidu.com/") 31 response = request.urlopen(requests) 32 33 #print response.read().decode("gbk") 34 print (response.read().decode('utf8')) 35 ''' 36 字节--decode(解码)--字符串(unicode) 37 '''
但是,这些免费开放代理一般会有很多人都在使用,而且代理有寿命短,速度慢,匿名度不高,HTTP/HTTPS支持不稳定等缺点。
所以,专业爬虫工程师或爬虫公司会使用高品质的私密代理,这些代理通常需要找专门的代理供应商购买,再通过用户名/密码授权使用。
HTTPPasswordMgrWithDefaultRealm()
HTTPPasswordMgrWithDefaultRealm()
类将创建一个密码管理对象,用来保存 HTTP 请求相关的用户名和密码,主要应用两个场景:
-
验证代理授权的用户名和密码 (
ProxyBasicAuthHandler()
) -
验证Web客户端的的用户名和密码 (
HTTPBasicAuthHandler()
)
ProxyBasicAuthHandler(代理授权验证)
如果我们使用之前的代码来使用私密代理,会报 HTTP 407 错误,表示代理没有通过身份验证:
urllib2.HTTPError: HTTP Error 407: Proxy Authentication Required
所以我们需要改写代码,通过:
-
HTTPPasswordMgrWithDefaultRealm()
:来保存私密代理的用户密码 -
ProxyBasicAuthHandler()
:来处理代理的身份验证。
1 import urllib.request 2 3 # 用户名 4 user = "" 5 # 密码 6 passwd = "" 7 # Web服务器 IP 8 webserver = "" 9 10 # 1. 构建一个密码管理对象,用来保存需要处理的用户名和密码 11 passwdmgr = urllib.request.HTTPPasswordMgrWithDefaultRealm() 12 13 # 2. 添加账户信息,第一个参数realm是与远程服务器相关的域信息,一般没人管它都是写None,后面三个参数分别是 Web服务器、用户名、密码 14 passwdmgr.add_password(None, webserver, user, passwd) 15 16 # 3. 构建一个HTTP基础用户名/密码验证的HTTPBasicAuthHandler处理器对象,参数是创建的密码管理对象 17 httpauth_handler = urllib.request.HTTPBasicAuthHandler(passwdmgr) 18 19 # 4. 通过 build_opener()方法使用这些代理Handler对象,创建自定义opener对象,参数包括构建的 proxy_handler 20 opener = urllib.request.build_opener(httpauth_handler) 21 22 # 5. 可以选择通过install_opener()方法定义opener为全局opener 23 urllib.request.install_opener(opener) 24 25 # 6. 构建 Request对象 26 request = urllib.request.Request("http://") 27 28 # 7. 定义opener为全局opener后,可直接使用urlopen()发送请求 29 response = urllib.request.urlopen(request) 30 31 # 8. 打印响应内容 32 print(response.read())
urllib 的异常错误处理
在我们用urlopen或opener.open
方法发出一个请求时,如果urlopen或opener.open
不能处理这个response,就产生错误。
这里主要说的是URLError和HTTPError,以及对它们的错误处理。
URLError
URLError 产生的原因主要有:
- 没有网络连接
- 服务器连接失败
- 找不到指定的服务器
我们可以用try except
语句来捕获相应的异常。下面的例子里我们访问了一个不存在的域名:
1 import urllib.error 2 import urllib.request 3 4 requset =urllib.request.Request('http://www.dvsdvsdvsdb.com') 5 try: 6 urllib.request.urlopen(requset, timeout=5) 7 8 except urllib.error.URLError as e: 9 print(e) 10 print(e.reason) #URLError只有打印错误信息一个属性reason。
结果:
<urlopen error timed out>
timed out
HTTPError
HTTPError是URLError的子类,我们发出一个请求时,服务器上都会对应一个response应答对象,其中它包含一个数字"响应状态码"。
HTTPError有三个属性reason、code、headers,所以抓取异常时可以获取三个信息。
由于HTTPError的父类是URLError,所以父类的异常应当写到子类异常的后面
import urllib.error import urllib.request requset = urllib.request.Request('http://www.dvsdvsdvsdb.com') try: urllib.request.urlopen(requset, timeout=5) except urllib.error.HTTPError as e: print(e.reason) print(e.code) print(e.headers) except urllib.error.URLError as e: print(e) print(e.reason) else: print('request successfully')
HTTP响应状态码参考:
1xx:信息
100 Continue
服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。
101 Switching Protocols
服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。
2xx:成功
200 OK
请求成功(其后是对GET和POST请求的应答文档)
201 Created
请求被创建完成,同时新的资源被创建。
202 Accepted
供处理的请求已被接受,但是处理未完成。
203 Non-authoritative Information
文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。
204 No Content
没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的。
205 Reset Content
没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
206 Partial Content
客户发送了一个带有Range头的GET请求,服务器完成了它。
3xx:重定向
300 Multiple Choices
多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
301 Moved Permanently
所请求的页面已经转移至新的url。
302 Moved Temporarily
所请求的页面已经临时转移至新的url。
303 See Other
所请求的页面可在别的url下被找到。
304 Not Modified
未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。
305 Use Proxy
客户请求的文档应该通过Location头所指明的代理服务器提取。
306 Unused
此代码被用于前一版本。目前已不再使用,但是代码依然被保留。
307 Temporary Redirect
被请求的页面已经临时移至新的url。
4xx:客户端错误
400 Bad Request
服务器未能理解请求。
401 Unauthorized
被请求的页面需要用户名和密码。
401.1
登录失败。
401.2
服务器配置导致登录失败。
401.3
由于 ACL 对资源的限制而未获得授权。
401.4
筛选器授权失败。
401.5
ISAPI/CGI 应用程序授权失败。
401.7
访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。
402 Payment Required
此代码尚无法使用。
403 Forbidden
对被请求页面的访问被禁止。
403.1
执行访问被禁止。
403.2
读访问被禁止。
403.3
写访问被禁止。
403.4
要求 SSL。
403.5
要求 SSL 128。
403.6
IP 地址被拒绝。
403.7
要求客户端证书。
403.8
站点访问被拒绝。
403.9
用户数过多。
403.10
配置无效。
403.11
密码更改。
403.12
拒绝访问映射表。
403.13
客户端证书被吊销。
403.14
拒绝目录列表。
403.15
超出客户端访问许可。
403.16
客户端证书不受信任或无效。
403.17
客户端证书已过期或尚未生效。
403.18
在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
403.19
不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
403.20
Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
404 Not Found
服务器无法找到被请求的页面。
404.0
没有找到文件或目录。
404.1
无法在所请求的端口上访问 Web 站点。
404.2
Web 服务扩展锁定策略阻止本请求。
404.3
MIME 映射策略阻止本请求。
405 Method Not Allowed
请求中指定的方法不被允许。
406 Not Acceptable
服务器生成的响应无法被客户端所接受。
407 Proxy Authentication Required
用户必须首先使用代理服务器进行验证,这样请求才会被处理。
408 Request Timeout
请求超出了服务器的等待时间。
409 Conflict
由于冲突,请求无法被完成。
410 Gone
被请求的页面不可用。
411 Length Required
"Content-Length" 未被定义。如果无此内容,服务器不会接受请求。
412 Precondition Failed
请求中的前提条件被服务器评估为失败。
413 Request Entity Too Large
由于所请求的实体的太大,服务器不会接受请求。
414 Request-url Too Long
由于url太长,服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时,就会发生这种情况。
415 Unsupported Media Type
由于媒介类型不被支持,服务器不会接受请求。
416 Requested Range Not Satisfiable
服务器不能满足客户在请求中指定的Range头。
417 Expectation Failed
执行失败。
423
锁定的错误。
5xx:服务器错误
500 Internal Server Error
请求未完成。服务器遇到不可预知的情况。
500.12
应用程序正忙于在 Web 服务器上重新启动。
500.13
Web 服务器太忙。
500.15
不允许直接请求 Global.asa。
500.16
UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。
500.18
URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。
500.100
内部 ASP 错误。
501 Not Implemented
请求未完成。服务器不支持所请求的功能。
502 Bad Gateway
请求未完成。服务器从上游服务器收到一个无效的响应。
502.1
CGI 应用程序超时。 ·
502.2
CGI 应用程序出错。
503 Service Unavailable
请求未完成。服务器临时过载或当机。
504 Gateway Timeout
网关超时。
505 HTTP Version Not Supported
服务器不支持请求中指明的HTTP协议版本
URL解析
1 import urllib.parse 2 3 #对你传入的URL进行拆分 4 result = urllib.parse.urlparse('https://i.cnblogs.com/EditPosts.aspx?opt=1') 5 print(result) 6 7 #与urlparse相反用于URL的拼接 8 print(urllib.parse.urlunparse(result)) 9 10 #用于URL拼接 11 print(urllib.parse.urljoin('https://i.cnblogs.com','EditPosts.aspx')) 12 13 #将字典转换为url参数 14 data = { 15 'name': 'jiang', 16 'pwd' : '123' 17 } 18 19 base_url = 'http://www.baidu.com?' 20 url = base_url + urllib.parse.urlencode(data) 21 print(url)
运行结果:
ParseResult(scheme='https', netloc='i.cnblogs.com', path='/EditPosts.aspx', params='', query='opt=1', fragment='') https://i.cnblogs.com/EditPosts.aspx?opt=1 https://i.cnblogs.com/EditPosts.aspx http://www.baidu.com?name=jiang&pwd=123