爬虫基础一
目标:自动登陆爬虫
重要:
1、需要具备web知识,根据原理来做爬虫
2、一开始可能出现找不到入口,爬虫就是模拟浏览器的方式来跟网站交互,只要爬虫代码模拟的跟访问浏览器一样100%可以成功
必备知识:
1爬虫本质,通过代码伪造浏览器发送请求
2像不像:
- HTTP请求头:
- user-agent:代指用户使用的什么设备
- cookie:在用户浏览器上保存的标记
- HTTP请求体:
- name = alex&age=8
- {}
3 分析http请求:
- chrome :web
示例:
某网站在请求头加上了自定义头:
X-Anit-Forge-Code: 45899846
X-Anit-Forge-Token: f0ad22f5-f333-4ae7-9ac7-4cf129b54fad
X-Requested-With: XMLHttpRequest