requests模块基本使用
requests模块使用
requests:
get/post:
url
data/params:对请求参数的封装
headers:UA伪装
proxies:代理,字典形式{'代理类型':'代理ip,port'}
动态加载的数据:
由另一个额外的请求请求到的数据
ajax
js
如何鉴定页面中是否有动态加载的数据?
局部搜索
全局搜索
页面存在动态加载的数据时,要先去获取动态加载数据的url
对一个陌生网站进行爬取前的第一步做什么?
确定你要爬取的数据是否为动态加载的!!!
请求
response = requests.get(url=url, params=params, headers=headers, proxies=proxies)
response = requests.post(url=url, data=data, headers=headers, proxies=proxies)
概念:一个基于网络请求的模块,用来模拟浏览器发送请求
使用流程
指定url
进行请求的发送
获取响应数据(爬取到的数据)
持久化存储
响应
response.text:返回html字符串
response.json():返回json序列化好的对象
response.content:返回bytes类型