Requests 入门

首先直接通过管理员运行cmd,然后执行 pip install requests  就可以直接安装Requests库了

有个最基本的语句

  r = requests.get(url)

  通过requests.get,构造一个向服务器请求资源的Request对象(是python内部生成的)

  get() 返回的内容用r来表示,其中r是 Response 对象,它包含所有的服务器资源,我们可以从这个对象中获取所有我们想要的信息。

完整的使用方法是  r = requests.get( url, params = None, **kwargs)

在Response的对象(即r)属性中

——r.status_code   HTTP请求的返回状态,200表示连接成功,404或其他表示失败

——r.text      HTTP响应内容的字符串形式,即,url 对应的页面内容

——r.encoding     从HTTP header 中猜测的响应内容的编码方式

——r.apparent_encoding  从内容中分析响应内容的变法方式(常用的备选编码方式、更加准确)

——r.content     HTTP响应内容的二进制形式

 

Requests库的异常

——requests.ConnectionError 网络连接错误异常

——requests.HTTPError  HTTP错误异常

——requests.URLRequired  URL缺失异常

——requests.TooManyRedirects  超过最大重定向次数,产生重定向异常

——requests.ConnectTimeout  连接远程服务器超时异常

——requests.Timeout    请求URL超时,产生异常

 

爬取网页的通用代码框架

1 def getHTMLText(url):
2     try:
3         r = requests.get(url, timeout = 30)
4         r.raise_for_status()    #如果状态不是200,引发HTTPError异常
5         r.encoding = r.apparent_encoding
6         return r.text
7     except:
8         return "产生异常"

 

requests.request( method, url, **kwargs)

//  method :请求方式

r = requests.request( 'GET',  url, **kwargs)

r = requests.request( 'HEAD', url, **kwargs)

r = requests.request( 'POST', url, **kwargs)

r = requests.request( 'PUT', url, **kwargs)

r = requests.request( 'PATCH', url, **kwargs)

r = requests.request( 'delete', url, **kwargs)

r = requests.request( 'OPTIONS', url, **kwargs)

 

**kwargs : 控制访问的参数,均为可选项

——params   字典或字节序列,作为参数增加到 url 中

——data    字典、字节序列或文件对象,作为Request 的内容

——json    JSON格式的数据,作为Request 的内容

——headers  字典,HTTP定制头

——cookies  字典或CookieJar, Request中的cookie

——auth    元组,支持HTTP认证功能

——files    字典类型,传输文件

——timeout   设定超时时间,秒为单位

——proxies  字典类型,设定访问代理服务器,可以增加登录认证

 

(高级功能)

——allow_redirects  True/False,默认为True,重定向开关

——stream    True/False,默认为True,获取内容立即下载

——verify    True/False,默认为True,认证SSL证书开关

——cert    本地SSL证书路径

 

posted @ 2018-05-08 12:51  ouyang_wsgwz  阅读(184)  评论(0编辑  收藏  举报