摘要:
用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 Doug Cutting 写的一个开源软件,借鉴了Google的 GFS和MapReduce思想,Map-Reduce 和 Nutch Distributed File System 阅读全文
摘要:
一、大量网页怎么存储 亿万级;没有硬盘,存储在内存中,加快检索的速度;冗余的办法储存,将数据写入多个节点中。 二、搜索算法 搜索响应速度,毫秒级响应;——倒排索引 三、page-rank 计算问题 网页排名,优先推荐的问题;—— 倒排索引 先分词——建立索引——建立倒排列表 page-rank 算法 阅读全文