urllib 进阶

urlopen 里面可以传递四个参数

urllib.urlopen(url[, data[, proxies[, context]]])

url 链接

data 传参

数据传送分为POST和GET两种方式，两种方式有什么区别呢？

最重要的区别是GET方式是直接以链接形式访问，链接中包含了所有的参数，当然如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数，不过如果你想直接查看提交了什么就不太方便了，大家可以酌情选择。

POST方式：

上面我们说了data参数是干嘛的？对了，它就是用在这里的，我们传送的数据就是这个参数data，下面演示一下POST方式。

1 import urllib
2 import urllib2
3  
4 values = {"username":"12222222qq.com","password":"XXXX"}
5 data = urllib.urlencode(values)
6 url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
7 request = urllib2.Request(url,data)
8 response = urllib2.urlopen(request)
9 print response.read()

GET方式：

至于GET方式我们可以直接把参数写到网址上面，直接构建一个带参数的URL出来即可。

import urllib
import urllib2
 
values={}
values['username'] = "12222222@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

构造之后的url

http://passport.csdn.net/account/login?username=12222222%40qq.com&password=XXXX

构造Request

其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例，构造时需要传入Url,Data等等的内容。比如上面的两行代码，我们可以这么改写

1 import urllib2
2  
3 request = urllib2.Request("http://www.baidu.com")
4 response = urllib2.urlopen(request)
5 print response.read()

运行结果是完全一样的，只不过中间多了一个request对象，推荐大家这么写，因为在构建请求时还需要加入好多内容，通过构建一个request，服务器响应请求得到应答，这样显得逻辑上清晰明确。

设置Headers

有些网站会有反扒机制设置header模拟浏览器可以有效规避这一现象。

可以通过wireshark或者chrom获取浏览器发送的信息，其中agent就是请求的身份，如果没有写入请求身份，那么服务器不一定会响应，所以可以在headers中设置agent,例如下面的例子，这个例子只是说明了怎样设置的headers，小伙伴们看一下设置格式就好。

 1 import urllib  
 2 import urllib2  
 3  
 4 url = 'http://www.server.com/login'
 5 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
 6 values = {'username' : 'cqc',  'password' : 'XXXX' }  
 7 headers = { 'User-Agent' : user_agent }  
 8 data = urllib.urlencode(values)  
 9 request = urllib2.Request(url, data, headers)  
10 response = urllib2.urlopen(request)  
11 page = response.read()

对付防盗链，服务器会识别headers中的referer是不是它自己，如果不是，有的服务器不会响应，所以我们还可以在headers中加入referer

1 headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' ,'Referer':'http://www.zhihu.com/articles' }

在传送请求时把headers传入Request参数里，这样就能应付防盗链了。

另外headers的一些属性，下面的需要特别注意一下：

User-Agent : 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求
Content-Type : 在使用 REST 接口时，服务器会检查该值，用来确定 HTTP Body 中的内容该怎样解析。
application/xml ：在 XML RPC，如 RESTful/SOAP 调用时使用
application/json ：在 JSON RPC 调用时使用
application/x-www-form-urlencoded ：浏览器提交 Web 表单时使用
在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会导致服务器拒绝服务

其他的有必要的可以审查浏览器的headers内容，在构建时写入同样的数据即可

Proxy（代理）的设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作，每隔一段时间换一个代理，网站君都不知道是谁在捣鬼了，这酸爽！

下面一段代码说明了代理的设置用法

1 import urllib2
2 enable_proxy = True
3 proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
4 null_proxy_handler = urllib2.ProxyHandler({})
5 if enable_proxy:
6     opener = urllib2.build_opener(proxy_handler)
7 else:
8     opener = urllib2.build_opener(null_proxy_handler)
9 urllib2.install_opener(opener)

urlopen 同样可以使用匿名代理。

1 # Use http://www.someproxy.com:3128 for HTTP proxying
2 proxies = {'http': 'http://www.someproxy.com:3128'}
3 filehandle = urllib.urlopen(some_url, proxies=proxies)
4 # Don't use any proxies
5 filehandle = urllib.urlopen(some_url, proxies={})
6 # Use proxies from environment - both versions are equivalent
7 filehandle = urllib.urlopen(some_url, proxies=None)
8 filehandle = urllib.urlopen(some_url)

指定代理和使用系统默认代理：

1 >>> import urllib
2 >>> proxies = {'http': 'http://proxy.example.com:8080/'}
3 >>> opener = urllib.FancyURLopener(proxies)
4 >>> f = opener.open("http://www.python.org")
5 >>> f.read()

1 >>> import urllib
2 >>> opener = urllib.FancyURLopener({})
3 >>> f = opener.open("http://www.python.org/")
4 >>> f.read()

Timeout 设置

1 import urllib2
2 response = urllib2.urlopen('http://www.baidu.com', timeout=10)

1 import urllib2
2 response = urllib2.urlopen('http://www.baidu.com',data, 10)

SSL

 1 import socket, ssl
 2 
 3 context = ssl.SSLContext(ssl.PROTOCOL_TLSv1)
 4 context.verify_mode = ssl.CERT_REQUIRED
 5 context.check_hostname = True
 6 context.load_default_certs()
 7 
 8 s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
 9 ssl_sock = context.wrap_socket(s, server_hostname='www.verisign.com')
10 ssl_sock.connect(('www.verisign.com', 443))

https://docs.python.org/2/library/urllib.html#urllib.urlencode

使用 HTTP 的 PUT 和 DELETE 方法

http协议有六种请求方法，get,head,put,delete,post,options，我们有时候需要用到PUT方式或者DELETE方式请求。

PUT：这个方法比较少见。HTML表单也不支持这个。本质上来讲， PUT和POST极为相似，都是向服务器发送数据，但它们之间有一个重要区别，PUT通常指定了资源的存放位置，而POST则没有，POST的数据存放位置由服务器自己决定。
DELETE：删除某一个资源。基本上这个也很少见，不过还是有一些地方比如amazon的S3云服务里面就用的这个方法来删除资源。

如果要使用 HTTP PUT 和 DELETE ，只能使用比较低层的 httplib 库。虽然如此，我们还是能通过下面的方式，使 urllib2 能够发出 PUT 或DELETE 的请求，不过用的次数的确是少，在这里提一下。

1 import urllib2
2 request = urllib2.Request(uri, data=data)
3 request.get_method = lambda: 'PUT' # or 'DELETE'
4 response = urllib2.urlopen(request)

使用DebugLog

类似wireshark和调试工具可以将发送的交互包显示出来。

1 import urllib2
2 httpHandler = urllib2.HTTPHandler(debuglevel=1)
3 httpsHandler = urllib2.HTTPSHandler(debuglevel=1)
4 opener = urllib2.build_opener(httpHandler, httpsHandler)
5 urllib2.install_opener(opener)
6 response = urllib2.urlopen('http://www.baidu.com')

other functuons

urllib.quote(string[, safe])

1  >>> urllib.quote('https://docs.python.org/2/library/urllib.html#urllib.urlencode')
2  'https%3A//docs.python.org/2/library/urllib.html%23urllib.urlencode'
3  >>> urllib.quote_plus('https://docs.python.org/2/library/urllib.html#urllib.urlencode')
4  'https%3A%2F%2Fdocs.python.org%2F2%2Flibrary%2Furllib.html%23urllib.urlencode'
5  >>> urllib.quote_plus('https://docs.python.org/2/library/urllib.html#urllib.urlencode','/')
6  'https%3A//docs.python.org/2/library/urllib.html%23urllib.urlencode'
7  >>> urllib.unquote('https%3A//docs.python.org/2/library/urllib.html%23urllib.urlencode')
8  'https://docs.python.org/2/library/urllib.html#urllib.urlencode'

异常捕获

HTTPError

 1 100：继续  客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。
 2 
 3 101： 转换协议  在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。
 4 
 5 102：继续处理   由WebDAV（RFC 2518）扩展的状态码，代表处理将被继续执行。
 6 
 7 200：请求成功      处理方式：获得响应的内容，进行处理
 8 
 9 201：请求完成，结果是创建了新资源。新创建资源的URI可在响应的实体中得到    处理方式：爬虫中不会遇到
10 
11 202：请求被接受，但处理尚未完成    处理方式：阻塞等待
12 
13 204：服务器端已经实现了请求，但是没有返回新的信 息。如果客户是用户代理，则无须为此更新自身的文档视图。    处理方式：丢弃
14 
15 300：该状态码不被HTTP/1.0的应用程序直接使用， 只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。    处理方式：若程序中能够处理，则进行进一步处理，如果程序中不能处理，则丢弃
16 301：请求到的资源都会分配一个永久的URL，这样就可以在将来通过该URL来访问此资源    处理方式：重定向到分配的URL
17 
18 302：请求到的资源在一个不同的URL处临时保存     处理方式：重定向到临时的URL
19 
20 304：请求的资源未更新     处理方式：丢弃
21 
22 400：非法请求     处理方式：丢弃
23 
24 401：未授权     处理方式：丢弃
25 
26 403：禁止     处理方式：丢弃
27 
28 404：没有找到     处理方式：丢弃
29 
30 500：服务器内部错误  服务器遇到了一个未曾预料的状况，导致了它无法完成对请求的处理。一般来说，这个问题都会在服务器端的源代码出现错误时出现。
31 
32 501：服务器无法识别  服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法，并且无法支持其对任何资源的请求。
33 
34 502：错误网关  作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。
35 
36 503：服务出错   由于临时的服务器维护或者过载，服务器当前无法处理请求。这个状况是临时的，并且将在一段时间以后恢复。

HTTPError实例产生后会有一个code属性，这就是是服务器发送的相关错误号。
因为urllib2可以为你处理重定向，也就是3开头的代号可以被处理，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。

下面我们写一个例子来感受一下，捕获的异常是HTTPError，它会带有一个code属性，就是错误代号，另外我们又打印了reason属性，这是它的父类URLError的属性。

1 import urllib2
2  
3 req = urllib2.Request('http://blog.csdn.net/cqcre')
4 try:
5     urllib2.urlopen(req)
6 except urllib2.HTTPError, e:
7     print e.code
8     print e.reason

运行结果：

1 403
2 Forbidden

错误代号是403，错误原因是Forbidden，说明服务器禁止访问。

我们知道，HTTPError的父类是URLError，根据编程经验，父类的异常应当写到子类异常的后面，如果子类捕获不到，那么可以捕获父类的异常，所以上述的代码可以这么改写

 1 import urllib2
 2  
 3 req = urllib2.Request('http://blog.csdn.net/cqcre')
 4 try:
 5     urllib2.urlopen(req)
 6 except urllib2.HTTPError, e:
 7     print e.code
 8 except urllib2.URLError, e:
 9     print e.reason
10 else:
11     print "OK"

如果捕获到了HTTPError，则输出code，不会再处理URLError异常。如果发生的不是HTTPError，则会去捕获URLError异常，输出错误原因。

另外还可以加入 hasattr属性提前对属性进行判断，代码改写如下

 1 import urllib2
 2  
 3 req = urllib2.Request('http://blog.csdn.net/cqcre')
 4 try:
 5     urllib2.urlopen(req)
 6 except urllib2.URLError, e:
 7     if hasattr(e,"code"):
 8         print e.code
 9     if hasattr(e,"reason"):
10         print e.reason
11 else:
12     print "OK"

发表于 2017-10-26 18:32 ZJBH 阅读(232) 评论(0) 编辑收藏举报