爬虫初识
什么是爬虫?
-
就是通过编写程序模拟浏览器上网,然后让其取互联网上爬取数据的过程
- 关键字 : 模拟(request模块),抓取
-
什么是HTTP?
- 我的服务器端和客户端进行数据交互的某种形式
爬虫的分类
- 通用爬虫 : 抓取互联网中的一整张页面
- 聚焦爬虫 : 抓取互联网页面中局部的,指定的数据
- 增量式爬虫 : 同来检测网站数据更新的情况,以便爬取到网站最新更新出来的数据
反爬机制
有了日常的爬虫,门户网站也不愿意免费让你随便爬取,所以网站制定和发明了很多防止你爬虫的策略和方法
反反爬策略
我们的爬虫程序要爬去门户网站的数据,但是网站
爬虫合法性探究
爬虫的行为风险的体现
- 干扰了被访问网站的正常运营
- 爬取了受法律保护的特定类型的数据和信息
如何规避风险
-
严格遵守网站设置的robots协议
- 如何查看
- 在网站地址后面加上
/robots.txt
- 在网站地址后面加上
- robots协议 : 文本协议
- 特性 : 放君子不防小人的协议
- 如何查看
-
在规避反爬措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运营
-
在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除