urllib库的基础知识

一、库

import urllib.request

 

二、打开网页

通过urlopen()的方法,实现网页的打开。必须加“http://”

import urllib.request
response=urllib.request.urlopen('http://www.baidu.com')

2.1urlopen方法说明

urlopen(url,data,timeout) url 网址(必传参数)
data 默认为空,用于传递POST或GET的数据
timeout

可以设置等待多久超时,为了解决一些网站实在响应过慢而造成的影响。

该参数属于隐式过期时间,如果响应提前,则时间提前结束

 


三、传递带header请求头的url

import urllib.request
url = 'http://www.budejie.com'#目标访问地址
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'#网页请求头
headers = {'User-Agent' : user_agent }#将请求头组合成键值对形式
req=urllib.request.Request(url,headers=header)#通过Request方法给url加访问头
response=urllib.request.urlopen(req)#打开带请求头的url

3.1请求头说明

Header解释示例
Accept 指定客户端能够接收的内容类型 Accept: text/plain, text/html
Accept-Charset 浏览器可以接受的字符编码集。 Accept-Charset: iso-8859-5
Accept-Encoding 指定浏览器可以支持的web服务器返回内容压缩编码类型。 Accept-Encoding: compress, gzip
Accept-Language 浏览器可接受的语言 Accept-Language: en,zh
Accept-Ranges 可以请求网页实体的一个或者多个子范围字段 Accept-Ranges: bytes
Authorization HTTP授权的授权证书 Authorization: Basic QWxhZGRpbjpvcGVuIHNlc2FtZQ==
Cache-Control 指定请求和响应遵循的缓存机制 Cache-Control: no-cache
Connection 表示是否需要持久连接。(HTTP 1.1默认进行持久连接) Connection: close
Cookie HTTP请求发送时,会把保存在该请求域名下的所有cookie值一起发送给web服务器。 Cookie: $Version=1; Skin=new;
Content-Length 请求的内容长度 Content-Length: 348
Content-Type 请求的与实体对应的MIME信息 Content-Type: application/x-www-form-urlencoded
Date 请求发送的日期和时间 Date: Tue, 15 Nov 2010 08:12:31 GMT
Expect 请求的特定的服务器行为 Expect: 100-continue
From 发出请求的用户的Email From: user@email.com
Host 指定请求的服务器的域名和端口号 Host: www.zcmhi.com
If-Match 只有请求内容与实体相匹配才有效 If-Match: “737060cd8c284d8af7ad3082f209582d”
If-Modified-Since 如果请求的部分在指定时间之后被修改则请求成功,未被修改则返回304代码 If-Modified-Since: Sat, 29 Oct 2010 19:43:31 GMT
If-None-Match 如果内容未改变返回304代码,参数为服务器先前发送的Etag,与服务器回应的Etag比较判断是否改变 If-None-Match: “737060cd8c284d8af7ad3082f209582d”
If-Range 如果实体未改变,服务器发送客户端丢失的部分,否则发送整个实体。参数也为Etag If-Range: “737060cd8c284d8af7ad3082f209582d”
If-Unmodified-Since 只在实体在指定时间之后未被修改才请求成功 If-Unmodified-Since: Sat, 29 Oct 2010 19:43:31 GMT
Max-Forwards 限制信息通过代理和网关传送的时间 Max-Forwards: 10
Pragma 用来包含实现特定的指令 Pragma: no-cache
Proxy-Authorization 连接到代理的授权证书 Proxy-Authorization: Basic QWxhZGRpbjpvcGVuIHNlc2FtZQ==
Range 只请求实体的一部分,指定范围 Range: bytes=500-999
Referer 先前网页的地址,当前请求网页紧随其后,即来路 Referer: http://www.zcmhi.com/archives/71.html
TE 客户端愿意接受的传输编码,并通知服务器接受接受尾加头信息 TE: trailers,deflate;q=0.5
Upgrade 向服务器指定某种传输协议以便服务器进行转换(如果支持) Upgrade: HTTP/2.0, SHTTP/1.3, IRC/6.9, RTA/x11
User-Agent User-Agent的内容包含发出请求的用户信息 User-Agent: Mozilla/5.0 (Linux; X11)
Via 通知中间网关或代理服务器地址,通信协议 Via: 1.0 fred, 1.1 nowhere.com (Apache/1.1)
Warning 关于消息实体的警告信息 Warn: 199 Miscellaneous warning

四、Proxy代理

4.1配置流程

import urllib.request as re
url='http://www.baidu.com'
proxy={'http':'192.168.1.1:8080'}#代理地址
proxy_handler=re.ProxyHandler(proxy)#将代理地址传入处理器
proxy_opener=re.build_opener(proxy_handler)#建立构造器
proxy_opener.addheaders=[('user-agent','Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')]#传入请求头
re.install_opener(proxy_opener)#安装构造器
response=re.urlopen(url)#打开网页

五、DebugLog调试模式

import urllib.request as re
url='http://www.baidu.com'
debug_start=re.HTTPHandler(debuglevel=1)#开启调试模式
debug_end=re.HTTPHandler(debuglevel=0)#关闭调试模式
opener=re.build_opener(debug_start,debug_end)#执行构造器
re.install_opener(opener)#安装构造器
response=re.urlopen(url)

 

六、URLError异常处理

使用try...except...来处理异常情况,一般的异常情况分两种:URLErrorHTTPError

import urllib.request as re
url='http://www.baidu.com'
res=re.Request(url)
try:
    re.urlopen(res)
except re.HTTPError as e:
    print(e.code)#返回异常状态值
except re.URLError as e:
    print(e.reason)#返回错误结果
else:
    print('ALl Right')

6.1状态码

根据响应结果的类型,大致分为以下几类:

1XX(信息类):该类型状态码表示接收到请求并且继续处理。

  • 100,客户端必须继续发出请求。
  • 101,客户端要求服务器根据请求转换HTTP协议版本。

2XX(响应成功):该类型状态码表示动作被成功接收、理解和接受。

  • 200,表明该请求被成功地完成,所请求的资源发送到客户端。
  • 201,提示知道新文件的URL。
  • 202,接受并处理,但处理未完成。
  • 203,返回信息不确定或不完整。
  • 204,收到请求,但返回信息为空。
  • 205,服务器完成了请求,用户必须复位当前已经浏览过的文件。
  • 206,服务器已经完成了部分用户的GET请求。

3XX(重定向类):该类型状态码表示为了完成指定的动作,必须接受进一步处理。

  • 300,请求的资源可在多处获得。
  • 301,本网页被永久性转移到另一个URL。
  • 302,请求的网页被重定向到新的地址。
  • 303,建议用户访问其他URL或访问方式。
  • 304,自从上次请求后,请求的网页未修改过。
  • 305,请求的资源必须从服务器指定的地址获得。
  • 306,前一版本HTTP中使用的代码,现已不再使用。
  • 307,声明请求的资源临时性删除。

XX(客户端错误类):该类型状态码表示请求包含错误语法或不能正确执行。

  • 400,客户端请求有语法错误。
  • 401,请求未经授权。
  • 402,保留有效ChargeTo头响应。
  • 403,禁止访问,服务器收到请求,但拒绝提供服务。
  • 404,可连接服务器,但服务器无法取得所请求的网页,请求资源不存在。
  • 405,用户在Request-Line字段定义的方法不被允许。
  • 406,根据用户发送的Accept,请求资源不可访问。
  • 407,类似401,用户必须首先在代理服务器上取得授权。
  • 408,客户端没有在用户指定的时间内完成请求。
  • 409,对当前资源状态,请求不能完成。
  • 410,服务器上不再有此资源。
  • 411,服务器拒绝用户定义的Content-Length属性请求。
  • 412,一个或多个请求头字段在当前请求中错误。
  • 413,请求的资源大于服务器允许的大小。
  • 414,请求的资源URL长于服务器允许的长度。
  • 415,请求资源不支持请求项目格式。
  • 416,请求中包含Range请求头字段,在当前请求资源范围内没有range指示值。
  • 417,服务器不满足请求Expect头字段指定的期望值。

5XX(服务器错误类):该类型状态码表示服务器或网关错误。

  • 500,服务器错误。
  • 501,服务器不支持请求的功能。
  • 502,网关错误。
  • 503,无法获得服务。
  • 504,网关超时。
  • 505,不支持的http版本。

七、Cookie

7.1引入

import http.cookiejar

7.2创建流程

import urllib.request as re
import http.cookiejar
url="www.baidu.com"
c=http.cookiejar.CookieJar()#创建cookie实例
handler=re.HTTPCookieProcessor(c)#创建cookie进程
opener=re.build_opener(handler)#创建构造器
re.install_opener(opener)#安装构造器
response=re.urlopen(url)#打开网页

  

 

 

 

 

 

 

posted @ 2017-12-26 21:43  小小逐月者  阅读(287)  评论(0编辑  收藏  举报