[Python自学] 爬虫(3)Requests库
一、requests库相关概念
1.requests和urllib的区别
1)requests的底层实现就是urllib
2)requests在python2和python3比较通用,类、方法等基本一样。
3)requests更简单易用
4)requests能够自动帮我们解压响应数据
2.requests文档
官方中文文档:https://requests.readthedocs.io/zh_CN/latest/
二、response响应
1.获取响应内容文本(str)
import requests
response = requests.get("https://www.baidu.com") response.encoding = "utf-8" print(response.text) # response.text的类型是str
使用response.encoding="utf-8"是为其设置一个解码类型,避免解码错误,形成乱码。
这里需要注意,我们使用什么样的解码类型,要和响应数据使用编码类型一致,有些相应使用的是gbk编码,我们也需要用gbk来解码。这里要根据实际的情况来调整。
2.获取响应内容二进制数据
import requests
response = requests.get("https://www.baidu.com") response.encoding = "utf-8" print(response.content) # 获取二进制数据 print(response.content.decode("utf-8")) # 将二进制解码为"utf-8",类型是str,和response.text一样
三、requests小技巧
1.转换cookies为字典类型
import requests response = requests.get("http://www.baidu.com") # RequestsCookieJar 对象 print(response.cookies) # <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]> # 将RequestsCookieJar对象转换为字典 cookie_dict = requests.utils.dict_from_cookiejar(response.cookies) print(cookie_dict) # {'BDORZ': '27315'}
使用requests.utils.dict_from_cookiejar方法可以将response.cookies转换为字典,方便使用。
注意:我们在浏览器中看到的cookie可能有很多,但这些cookies不一定是服务器一次性设置的,而是在不同的请求中分别设置的,所以我们通过response.cookies获取的cookie只是其中的一部分。
2.url地址编解码
import requests url = "http://www.baidu.com/s?wd=魔兽世界" # url编码 url_encoded = requests.utils.quote(url) print(url_encoded) # http%3A//www.baidu.com/s%3Fwd%3D%E9%AD%94%E5%85%BD%E4%B8%96%E7%95%8C # url解码 url_decoded = requests.utils.unquote(url_encoded) print(url_decoded) # http://www.baidu.com/s?wd=魔兽世界
3.忽略SSL证书验证
当我们访问的HTTPS网站的证书不是花钱购买的证书(不被我们的机器认可,认为是不安全的,即浏览器上的小锁不是加锁状态),那么在发送请求的时候会提示证书验证失败。
此时我们可以使用以下方法,不进行证书验证:
import requests res = requests.get("https://www.12306.cn/mormhweb/", verify=False) # 这里会出现一个强烈建议添加证书认证的警告 print(res.content)
4.设置requests请求超时时间
import requests res = requests.get("https://www.12306.cn/mormhweb/", timeout=10) # 10秒没响应就报异常,我们通过try except来捕获
5.判断响应是否正常
即判断响应状态码是否为200:
import requests def _parse_url(url): response = requests.get(url, timeout=10) assert response.status_code == 200 return response.content def parse_url(url): try: html_content = _parse_url(url) except Exception as err: print(err) html_content = None return html_content if __name__ == '__main__': cap_url = 'http://www.baidu.com/' print(parse_url(cap_url).decode('utf-8'))
通过断言来研判响应状态码是否为200,如果不是200则抛出异常。
6.使用retrying模块来重试请求
import requests from retrying import retry # 使用前要使用pip install retrying安装这个第三方模块 @retry(stop_max_attempt_number=3) # 使用retry装饰器,可以实现该函数最多尝试3次,如果还报错,则抛出异常 def _parse_url(url): print("retry...") response = requests.get(url, timeout=10) assert response.status_code == 200 return response.content def parse_url(url): try: html_content = _parse_url(url) except Exception as err: print(err) html_content = None return html_content if __name__ == '__main__': # cap_url = 'http://www.baidu.com/' cap_url = 'www.baidu.com/' # 我们将url改成错误的,然后进行尝试retry的效果 content = parse_url(cap_url) if content: print(content.decode('utf-8'))
输出结果:
retry... retry... retry... Invalid URL 'www.baidu.com/': No schema supplied. Perhaps you meant http://www.baidu.com/?
可以看到,get请求被尝试了三次,三次都出错,才抛出异常,并被我们捕获。
===
保持学习,否则迟早要被淘汰*(^ 。 ^ )***