摘要: 目录:网络爬虫搜索引擎索引检索模型链接分析算法存储与计算搜索引擎缓存机制 搜索引擎的使用对于我们来说不陌生,对于一个正常的搜索流程,比如用户输入查询“搜索引擎 技术”,搜索引擎需要分别将存储的磁盘上的两个单词的倒排序索引读入内存,之后进行解压缩,然后求两个单词对应倒排序列表的搅基,找到所有包含两个单词的文档集合,根据排序算法来对每个文档的相关性进行打分,按照相关度输入相关最高的搜索结果。 但是对于这系列步骤中海量文档数据的来源,存储,查找的技术又是如何的呢?下面是我最近看了《这就是搜索引擎:核心技术详解》这书的大致总结:一、网络爬虫 首先,搜索引擎的文档数据从何而来? 站长们通用的一... 阅读全文
posted @ 2014-01-17 17:10 清风333 阅读(1887) 评论(0) 推荐(4) 编辑