摘要: 定义:是一个自动提取网页的程序 1,Url开始 分析获取数据,找到Url-- 递归下去 结果 2,下载html 解析获取数据 保存数据 爬虫攻防:robots协议 君子协定,允许或不允许抓取的内容 1,请求检测header 攻击 2,用户登录--请求的时候带上cookie 攻击 3,爬虫的频率高,限 阅读全文
posted @ 2018-07-05 22:29 Victor.lu 阅读(123) 评论(0) 推荐(0) 编辑