爬虫学习
定义:是一个自动提取网页的程序
1,Url开始---分析获取数据,找到Url-- 递归下去---结果
2,下载html---解析获取数据---保存数据
爬虫攻防:robots协议-----君子协定,允许或不允许抓取的内容
1,请求检测header ------攻击
2,用户登录--请求的时候带上cookie -----攻击
3,爬虫的频率高,限制IP(黑名单/返回个验证码)---防御
验证码-----有开源组件做图片识别 / 打码平台
4,多个IP(adsl拨号 / 168伪装IP / 代理IP ) ------攻击
5,大招:
1)数据js动态加载 ----防御
2)转成图片 ----防御
3)js收集用户操作,然后提交 ----防御
4)安装控件,对硬盘操作,读取 ---防御