Requests 入门
首先直接通过管理员运行cmd,然后执行 pip install requests 就可以直接安装Requests库了
有个最基本的语句
r = requests.get(url)
通过requests.get,构造一个向服务器请求资源的Request对象(是python内部生成的)
get() 返回的内容用r来表示,其中r是 Response 对象,它包含所有的服务器资源,我们可以从这个对象中获取所有我们想要的信息。
完整的使用方法是 r = requests.get( url, params = None, **kwargs)
在Response的对象(即r)属性中
——r.status_code HTTP请求的返回状态,200表示连接成功,404或其他表示失败
——r.text HTTP响应内容的字符串形式,即,url 对应的页面内容
——r.encoding 从HTTP header 中猜测的响应内容的编码方式
——r.apparent_encoding 从内容中分析响应内容的变法方式(常用的备选编码方式、更加准确)
——r.content HTTP响应内容的二进制形式
Requests库的异常
——requests.ConnectionError 网络连接错误异常
——requests.HTTPError HTTP错误异常
——requests.URLRequired URL缺失异常
——requests.TooManyRedirects 超过最大重定向次数,产生重定向异常
——requests.ConnectTimeout 连接远程服务器超时异常
——requests.Timeout 请求URL超时,产生异常
爬取网页的通用代码框架
1 def getHTMLText(url): 2 try: 3 r = requests.get(url, timeout = 30) 4 r.raise_for_status() #如果状态不是200,引发HTTPError异常 5 r.encoding = r.apparent_encoding 6 return r.text 7 except: 8 return "产生异常"
requests.request( method, url, **kwargs)
// method :请求方式
r = requests.request( 'GET', url, **kwargs)
r = requests.request( 'HEAD', url, **kwargs)
r = requests.request( 'POST', url, **kwargs)
r = requests.request( 'PUT', url, **kwargs)
r = requests.request( 'PATCH', url, **kwargs)
r = requests.request( 'delete', url, **kwargs)
r = requests.request( 'OPTIONS', url, **kwargs)
**kwargs : 控制访问的参数,均为可选项
——params 字典或字节序列,作为参数增加到 url 中
——data 字典、字节序列或文件对象,作为Request 的内容
——json JSON格式的数据,作为Request 的内容
——headers 字典,HTTP定制头
——cookies 字典或CookieJar, Request中的cookie
——auth 元组,支持HTTP认证功能
——files 字典类型,传输文件
——timeout 设定超时时间,秒为单位
——proxies 字典类型,设定访问代理服务器,可以增加登录认证
(高级功能)
——allow_redirects True/False,默认为True,重定向开关
——stream True/False,默认为True,获取内容立即下载
——verify True/False,默认为True,认证SSL证书开关
——cert 本地SSL证书路径