架构深渊

慢慢走进程序的深渊……关注领域驱动设计、测试驱动开发、设计模式、企业应用架构模式……积累技术细节,以设计架构为宗。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

第一章 概述 Summarization of Search Engine Architecture

Posted on 2009-01-02 00:16  chen eric  阅读(329)  评论(0编辑  收藏  举报

第一章 概述 Summarization of Search Engine Architecture


搜索引擎的架构是编写一个搜索引擎所需要考虑的第一个问题,The Anatomy of a Large-Scale Hypertextual Web Search Engine 一文对此问题做了全面的阐述。最大的功能模块可以分为:爬虫、存储、索引和web服务。爬虫负责不间断地爬取目标网站的内容,维护一张url的列表,并按照不重复的原则周期性工作;存储需要把过滤掉html tag的内容存储到本地,当然有很多内容是直接过滤的,比如js代码、影音流、图片等;然后对存储下来的内容进行批量索引,最终所有的索引内容需要合并到同一个索引中;那么有了一个建好的倒排索引,配合后台的查询语句,就可以开始web服务了,对于被检索的keyword,根据pagerank再结合内容的匹配程度,将结果呈现出来。对于用户来说,整个过程是透明的,只需要一个输入就可以得到所有可能的结果。