爬虫的本质是和分布式爬虫的关系

爬虫的本质是什么

搞爬虫或者面试官总是觉得分布式爬虫是一个很牛逼的东西,认为只有会分布式爬虫才能体现一个爬虫工程师的最高技术水平,而不会分布式爬虫,则认为爬虫工程师的水平很菜,这是一种很肤浅的思想。

一:在实际的工作中,爬虫根本不需要去分布式爬虫

  1.现在服务器越来越好,网络也越来越好,一台优秀的服务器加上好的网络,开多线程或者多进程抓取等并发抓取手段,完全可以轻松实现日抓取千万数据。

  2.大部分公司的数据采集量,每日也就是几十万或者采集网站数据量也就几万条数据而已。没有那么大的数据量,去搞分布式爬虫有什么那么意义呢?

二:分布式爬虫只是提高爬虫效率的一个环节,,它从来不是爬虫的本质东西。

  爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是爬虫要去解决的核心问题。

 

分布式爬虫只有当爬虫任务量很大的时候才会凸显优势,一般情况下也确实不必动用这个大杀器,所以要明确你的目标是什么,当数据量很少的时候。

,根本就没有必要去搞分布式爬虫,对大部分公司所抓取得数据量来说,搞分布式爬虫意义不大

posted @   淋哥  阅读(833)  评论(0编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
历史上的今天:
2019-04-04 搜狗微信js加密代码
点击右上角即可分享
微信分享提示