爬虫使用场景分类

爬虫在使用场景中的分类：

　　通用爬虫：

　　　　抓取系统重要组成部分。抓取的是一整张页面数据

　　聚焦爬虫：

　　　　是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容

　　增量式爬虫：

　　　　检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

爬虫的矛与盾

　　反爬机制：

　　　　门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

　　反反爬机制：

　　　　爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而获取门户网站中相关的数据。

　　robots.txt协议：　　

　　　　君子协议。规定了网站中哪些数据可以被爬虫爬取，哪些数据不可以被爬取。

　　　　例如：https://www.taobao.com/robots.txt

posted @ 2021-11-11 20:43 冰溏阅读(644) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

昵称：冰溏
园龄： 3年5个月
粉丝： 2
关注： 0

2025年3月

日

一

二

三

四

五

六