君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2015年5月16日 #

摘要: 对于商业搜索引擎来说,分布式爬虫架构是必须采用的技术。面对海量待抓取网页,只有采取分布式架构,才有可能在较短时间内完成一轮抓取工作。 分布式爬虫可以分为若千个分布式层级。不同的应用可能由其中部分层级构成,下图是一个大型分布式爬虫的3个层级:分布式数据中心、分布式抓取服务器及分布式爬虫程序。整个爬虫... 阅读全文
posted @ 2015-05-16 00:02 刺猬的温驯 阅读(865) 评论(0) 推荐(0) 编辑