爬虫requests的高级用法
代理操作
- 什么是代理? - 就是代理服务器 - 代理的网站: - 快代理 - 西祠代理 - goubanjia - 代理知识:https://help.kuaidaili.com/wiki/ - 匿名度: - 透明:对方服务器可以知道你使用了代理,并且也知道你的真实IP - 匿名:对方服务器可以知道你使用了代理,但不知道你的真实IP - 高匿:对方服务器不知道你使用了代理,更不知道你的真实IP。 - 类型: - http:该类型的代理ip只可以发起http协议头对应的请求 - https:该类型的代理ip只可以发起https协议头对应的请求
requests的get和post方法常用的参数:
- url
- headers
- data/params
- proxies
import requests headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3521.2 Safari/537.36' } url = 'https://www.baidu.com/s?wd=ip' res_text = requests.get(url=url,headers=headers,proxies={'https':'122.226.68.6:63000'}).text with open('ip.html','w',encoding='utf-8') as f: f.write(res_text) print('当前路径保存一个ip.html页面,是查看的当前访问百度的客户端IP')
cookie相关操作
- cookie:可是使得服务器端记录客户端的相关状态
- session:使用requests.Session(
实例化对象
),来请求页面,(post,get)请求的页面,携带着cookie.