搜索引擎架构

  搜索引擎获取并存储海量的网页相关信息,不需要实时计算,可看做搜索引擎的后台计算系统。搜索引擎的最重要目的是为用户提供准确全面的搜索结果。

  当搜索引擎接收到用户的查询词后,首先需要对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索结果,如果能够在缓存系统找到满足用户需求的信息,则可以直接将搜索结果返回给用户,如果缓存信息无法满足用户需求,搜索引擎需要调用“网页排序”模块功能,根据用户的查询实时计算哪些网页是满足用户信息需求的,并排序输出作为搜索结果。而网页排序最重要的两个参考因素中,一个是内容相似性因素,即哪些网页是和用户查询密切相关的;另一个是网页的重要性因素,即哪些网页是质量较好或者相对重要的,这点往往可以从链接分析的结果获取。结合以上两个考虑因素,就可以对网页进行排序,作为用户查询的搜索结果。

参考:《这就是搜索引擎:核心技术详解》.张俊林.pdf 第一章

 

posted @ 2018-02-13 15:26  理舞  阅读(364)  评论(0编辑  收藏  举报