爬虫介绍及环境

什么是爬虫
- 就是通过编写程序模拟浏览器上网，让其去互联网中抓取数据的过程。
爬虫的分类：
- 通用爬虫：爬取一整张页面源码数据。
- 聚焦爬虫：爬取页面中局部的数据。一定是在通用爬虫的基础上实现。
  - 数据解析
- 增量式爬虫：用来监测网站数据更新的情况。以便于爬取最新更新出来的数据！
爬虫合法性探究：
- 爬虫的风险体现：
  - 爬虫干扰了被访问网站的正常运营；
  - 爬虫抓取了受到法律保护的特定类型的数据或信息。
- 如何规避风险：
  - 严格遵守网站设置的robots协议；
  - 在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行；
  - 在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。
反爬机制
- robots协议：存在于服务器端的一个纯文本的协议。
  - User-Agent:就是请求载体的身份标识。
  - 特点：防君子不放小人
反反爬策略
http的头信息
- User-Agent
- Connection：‘close’
- content-type

posted @ 2019-12-02 16:24 犇羴鱻龘毳阅读(266) 评论(0) 编辑收藏举报

刷新页面返回顶部

犇羴鱻龘毳