1.2 垂直搜索引擎的框架设计
我们设计的儿童搜索引擎实现了三大系统:检索系统,推荐系统和前端展示系统。
1. 检索系统
检索系统是搜索引擎的核心,实现检索的基本功能。对于本系统,我们有两种实现方式:
- 基于Lucene的自建数据库的全文检索
- 基于已有独立网站的元搜索
2. 推荐系统
推荐系统是为用户推荐可能感兴趣的内容,分为两个步骤:
- 从用户管理系统的数据库中获取用户搜索记录
- 根据搜索记录推荐内容
3. 前端展示系统
前端展示系统是呈现给儿童的界面,关键是要生动新颖,符合儿童心理,抓住儿童眼球,让儿童爱上搜索。
该儿童搜索引擎的系统架构图如下图:
元搜索引擎实现比较简单,不是本文讨论的重点,后边第7节会具体讲解。本文主要介绍基于Lucene的自建数据库的全文检索。
任何一个自建数据库的搜索引擎都有四大基本模块:
- 信息抓取
- 索引入库
- 提供查询
- 前端展示
这也是我们的儿童搜索引擎的核心内容,其他功能如个性推荐都是在这四个基本模块的基础上完成的。在一般的搜索引擎中,这四个基本模块的关系都是这样的:
其中,爬虫获取信息是一个比较复杂的系统,基本结构如下:
这就是儿童搜索引擎的系统架构,我们在自建数据库检索的四大基础模块上融合了元搜索,在基本检索功能基础上实现了个性推荐,敏感词过滤,前端展示等。