py爬虫 —— py爬虫requests

安装requests库

pip3 install requests

使用 Requests 发送网络请求非常简单。

一开始要导入 Requests 模块:

 

import requests

 

然后,尝试获取某个网页。本例子中,我们来获取 CSDN 的一篇博客 :

r = requests.get("https://blog.csdn.net/acer12138")

现在,我们有一个名为 r 的 Response 对象。我们可以从这个对象中获取所有我们想要的信息。

Requests 简便的 API 意味着所有 HTTP 请求类型都是显而易见的。例如,你可以这样发送一个 HTTP POST 请求:

r = requests.post('http://httpbin.org/post', data = {'key':'value'})

Requests对HTTP资源的7种操作

requests.put() #更新整个网页
requests.get() #得到整个网页
requests.post() #向网页尾添加信息
requests.head() #得到网页的概要
requests.patch() #修改部分网页
requests.delete() #删除网页的信息

request操作

requests.request(method,url,**kwargs)

method:新建Request对象要使用的HTTP方法,包括:GET,POST,PUT,DELETE等
url:新建Request对象的URL链接
**kwargs:13个控制访问的可选参数

(1)params:字典或字节序列,作为参数增加到url中

import requests
url = 'http://www.baidu.com'
data = {"key" : "value"}
r = requests.request('get' ,url ,params = data)
print(r.url)
#结果是http://www.baidu.com/?key=valu

(2)data:字典、字节序列,文件,作为Request对象body的内容

#字典
dataDicValue={'key1':'value1','key2':'value2'}
r=requests.request('GET','http://www.baidu.com',data=dataDicValue)
#字节序列
dataStrValue='test'
r=requests.request('GET','http://www.baidu.com',data=dataStrValue)
#文件
dataFileValue={'file':open('test.csv','rb')}
r=requests.request('POST','http://www.baidu.com',data=dataFileValue)

(3)json:JSON格式的数据,作为Request对象body的内容

jsonValue={'key1':'value1','key2':'value2'}
r=requests.request('POST','http://www.baidu.com',json=jsonValue)

(4)headers:字典格式,HTTP请求头,作为Request对象Header的内容

headerValue={'user-agent': 'Chrome/10'}
r=requests.request('POST','http://www.baidu.com',headers=headerValue)
print(r.headers)
#{'Accept-Ranges': 'bytes', 'Cache-Control': 'max-age=86400', 'Connection': 'Keep-Alive', 'Content-Encoding': 'gzip', 'Content-Length': '4867', 'Content-Type': 'text/html', 'Date': 'Wed, 15 Aug 2018 10:22:42 GMT', 'Etag': '"3dcd-560eb5cea6700"', 'Expires': 'Thu, 16 Aug 2018 10:22:42 GMT', 'Last-Modified': 'Fri, 22 Dec 2017 10:34:36 GMT', 'P3p': 'CP=" OTI DSP COR IVA OUR IND COM "', 'Server': 'Apache', 'Set-Cookie': 'BAIDUID=6AE11C63536CF472F9B403B1BE467161:FG=1; expires=Thu, 15-Aug-19 10:22:42 GMT; max-age=31536000; path=/; domain=.baidu.com; version=1', 'Vary': 'Accept-Encoding,User-Agent'}

(5)cookies:字典或CookieJar,Request中的cookie

#字典
cookieDicValue={'key1':'value1','key2':'value2'}
r=requests.request('POST','http://www.baidu.com',cookies=cookieDicValue)
print(r.cookies)
#<RequestsCookieJar[]>
#CookieJar
cookiesJarValue=cookiejar.CookieJar()
r=requests.request('POST','http://www.baidu.com',cookies=cookiesJarValue)
print(r.cookies)
#<RequestsCookieJar[]>

(6)files:字典,形式为{filename: fileobject},表示要上传的多个部分

filesValue = {'file': open('test.csv', 'rb')}
r = requests.request('POST', 'http://www.baidu.com', files=filesValue)

(7)auth:Auth 句柄或 (user, pass) 元组

#Auth
authBasicValue=HTTPBasicAuth('username','password')
r = requests.request('POST', 'http://www.baidu.com', auth=authBasicValue)
#(user,pass)元组
authTupValue=('username','password')
r=requests.request('POST','http://www.baidu.com',auth=authTupValue)

(8)timeout:等待服务器数据的超时限制,是一个浮点数,或是一个(connect timeout, read timeout) 元组

#浮点数(单位秒)
timeoutFloatValue=12
r=requests.request('POST','http://www.baidu.com',timeout=timeoutFloatValue)
#(connect timeout, read timeout) 元组;
#connect timeout:建立连接所用的时间;适用于网络状况正常的情况下,两端所用的时间
#readtimeout:建立连接后从服务器读取到可用资源所用的时间;正常情况下,当我们发出请求时可以收到请求的结果,也就是页面上展示的内容,但是当网络状况很差的时候,就会出现页面上无法展示出内容的情况。另外当我们使用爬虫或者其他全自动的程序时,无法判断当前的网络状况是否良好,此时就有了ReadTimeout的用武之地了,通过设置ReadTimeout参数
#注意:在我们使用需要设置这两项参数的服务或程序时,应该对两项参数一起设置。 一般而言两项参数的数值可以设置成一样的,但可以把ReadTimeout设置的长一点,ConnectTimeout可以相对比较短,这是源于我们的网络状况一般较为稳定,连接时很少出现问题,但是读取时因为数据下载时的网络波动,出状况的可能性更大一些。
timeoutTupValue=(10,25)
r=requests.request('POST','http://www.baidu.com',timeout=timeoutTupValue)

(9)allow_redirects:True/False,默认为Ture,重定向开关,为True时表示允许POST/PUT/DELETE方法重定向

#禁止重定向
r=requests.request('POST','http://www.baidu.com',allow_redirects=False)

(10)proxies:字典类型,用于将协议映射为代理的URL

#以下是根据不同协议选择不同代理,也可以使用list+随机方式使用多个代理地址访问URL
poxiesValue={'http':'xxx.xxx.xxx.xxx:xx','https':'xxx.xxx.xxx.xxx:xx'}
r=requests.request('POST','http://www.baidu.com',poxies=poxiesValue)

(11)verify:True/False,默认为True,认证SSL证书开关;为True时会验证SSL证书,也可以使用cert参数提供一个CA_BUNDLE路径;为False时,忽略SSL验证

#忽略SSL验证
r=requests.request('POST','http://www.baidu.com',varify=False)
(12)stream:True/False,默认为True,获取body立即下载开关,为False会立即下载响应头和响应体;为True时会先下载响应头,当Reponse调用content方法时才下载响应体
# stream为True时下载步骤
#stream设置为True,直接下载响应头
r=requests.request('POST','http://www.baidu.com',stream=True)
#调用content方法下载响应体
r.content

(13)cert:为字符串时应是 SSL 客户端证书文件的路径(.pem格式,文件路径包含密钥和证书),如果是元组,就应该是一个(‘cert’, ‘key’) 二元值对

#文件路径
requests.request('POST','http://www.baidu.com',cert='/True_path/server.pem')
#元组
certTupValue=('/value/value.cert','/value/key')
requests.request('POST','http://www.baidu.com',cert=certTupValue)

来源

posted @ 2019-11-05 17:34  Nlifea  阅读(214)  评论(0编辑  收藏  举报