摘要: Hadoop的思想之源 HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 数据存储和计算难题 大量的网页怎么存储 搜索算法(倒排索引的计算) 阅读全文
posted @ 2019-07-13 12:35 Coolc 阅读(187) 评论(0) 推荐(0) 编辑