爬虫初识

什么是爬虫?

就是通过编写程序模拟浏览器上网,然后让其取互联网上爬取数据的过程
- 关键字 : 模拟(request模块),抓取
什么是HTTP?
- 我的服务器端和客户端进行数据交互的某种形式

爬虫的分类

通用爬虫 : 抓取互联网中的一整张页面
聚焦爬虫 : 抓取互联网页面中局部的,指定的数据
增量式爬虫 : 同来检测网站数据更新的情况,以便爬取到网站最新更新出来的数据

反爬机制

有了日常的爬虫,门户网站也不愿意免费让你随便爬取,所以网站制定和发明了很多防止你爬虫的策略和方法

反反爬策略

我们的爬虫程序要爬去门户网站的数据,但是网站

爬虫合法性探究

爬虫的行为风险的体现

干扰了被访问网站的正常运营
爬取了受法律保护的特定类型的数据和信息

如何规避风险

严格遵守网站设置的robots协议
- 如何查看
  - 在网站地址后面加上/robots.txt
- robots协议 : 文本协议
  - 特性 : 放君子不防小人的协议
在规避反爬措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运营
在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除

posted @ 2019-12-11 11:17 5魁首啊666 阅读(62) 评论(0) 编辑收藏举报

刷新页面返回顶部