0、垂直搜索引擎

0、垂直搜索引擎

一个搜索引擎由搜索器 索引器 、检索器用户接口 四个部分组成。垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。热门的垂直搜索行业有:购物,旅游,汽车,工作,房产,交友等行业。搜索引擎对动态url数据不敏感也是众所周知的,这些可以作为垂直搜索引擎的切入点。

搜索器:其功能是在互联网中漫游,发现和搜集信息;

索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;

检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;

用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。
 

不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、购物搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

垂直搜索引擎的索引数据特点:

垂直搜索引擎的索引数据倾向于结构化数据和元数据,这个特点是区别于通用搜索引擎的,这是垂直搜索引擎的立足点。设计的时候要提供收集用户数据的接口,同时提供tag,积分等机制,使搜索结果更加“垂直”。垂直搜索引擎的目标是帮助用户解决问题,而不只是像通用搜索引擎一样发现信息:这一点是垂直搜索引擎的终极目标。在做垂直搜索引擎的时候你需要考虑:什么问题是这个行业内的特殊性问题,什么问题是一般性问题。keso多次提到google的目标是让用户尽快离开google,而垂直搜索引擎应该粘住用户。一般来说,使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创的,大意是和用户工作密切相关,生活中必不可少的需求,而求有持续性。比如:学生找论文,业主找装修信息等等这样的需求。因此粘住用户,让用户有反馈的途径是一个关键部分。

框架

抓取

也就是蜘蛛程序,负责从信息源抓取数据,蜘蛛程序通常是基于预先构造的模板工作的,无模板的蜘蛛程序只能处理结构相对简单的信息,抓取系统涉及的关键技术点有爬行路径分析、增量抓取与全抓取、信息构造完整性、信息唯一性识别、多网页信息整合、自动标引(此功能也可以单独提出)等;

索引

把抓来的信息建立类似书目的数据文件,以便于实现高速检索。索引系统涉及的关键技术点有分词技术、预评分和后评分、增量索引与全索引、排序技术、热点词高速缓存、标准检索语句解析等;

搜索

  就是提供搜索功能的网站,网站的具体表现形式大不相同,但是都提供全文搜索功能,除了搜索功能外,还提供与业务相关的其他功能,譬如按地域导航检索、会员注册、订阅等。很多人把GOOGLE、百度称之为站外搜索,而把其他基于数据库的搜索称之为站内搜索,其实所有的搜索引擎提供的都是站内搜索,数据都是预先存储在本地的。
 
架构设计:http://www.chinaz.com/web/2015/1030/464393.shtml
     http://www.cnblogs.com/wintersun/p/5925496.html
       http://www.36dsj.com/archives/61886
     http://www.jb51.net/yunying/412471.html
 
拼音搜索:https://www.2cto.com/database/201203/123450.html
posted @ 2018-11-20 22:12  神码是浮云  阅读(495)  评论(0编辑  收藏  举报