爬虫的本质是什么?
来源于:http://www.sohu.com/a/168371748_714863
很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。
分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。
分布式爬虫只有当爬虫任务量很大的时候才会凸显优势,一般情况下也确实不必动用这个大杀器,所以要明确你的目标是什么。
--- 个人认为目前很多公司因为只有一到两条宽带(因为办公的宽带太贵了),也就是说爬虫只有一个网络出口,出去的ip是固定的,所以说要去搞分布式爬虫的公司,都是在装逼扯淡。作为程序员我们仅仅能提高的是抓取网页的速度而已。
如果觉得对您有帮助,麻烦您点一下推荐,谢谢!
好记忆不如烂笔头
好记忆不如烂笔头