爬虫学习

定义：是一个自动提取网页的程序

1，Url开始---分析获取数据，找到Url-- 递归下去---结果

2，下载html---解析获取数据---保存数据

爬虫攻防：robots协议-----君子协定，允许或不允许抓取的内容

1，请求检测header 　　　　　　　　 ------攻击

2，用户登录--请求的时候带上cookie　　-----攻击

3，爬虫的频率高，限制IP（黑名单/返回个验证码）---防御

　　验证码-----有开源组件做图片识别 / 打码平台

4，多个IP（adsl拨号 / 168伪装IP / 代理IP ） ------攻击

5，大招：

　　1）数据js动态加载 ----防御

　　2）转成图片　　　　----防御

　　3）js收集用户操作，然后提交 ----防御

　　4）安装控件，对硬盘操作，读取 ---防御

posted @ 2018-07-05 22:29 Victor.lu 阅读(136) 评论(0) 收藏举报

刷新页面返回顶部

luyiwei