摘要:
摘要: 设计爬虫架构一个设计良好的爬虫架构必须满足如下需求。(1)分布式:爬虫应该能够在多台机器上分布执行。(2)可伸缩性:爬虫结构应该能够通过增加额外的机器和带宽来提高抓取速度。(3)性能和有效性:爬虫系统必须有效地 ...设计爬虫架构一个设计良好的爬虫架构必须满足如下需求。(1)分布式:爬虫应该... 阅读全文
摘要:
网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬,而是有一定目的的,并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Intern... 阅读全文