12 2016 档案
摘要:拼写纠正 主要关注查询的拼写校正。例如,用户输入carot时,实际上可能想返回包含词项carrot的文档。Google的报告指出,当用户输入britian spears、britney's spears、brandy spears或者prittany spears时,实际上搜索引擎都会当成是brit
阅读全文
摘要:索引构建 如何建倒排索引的过程称为索引构建(index construction 或 indexing),而将构建索引的程序或计算机称为索引器(indexer)。索引构建算法的设计受硬件的配置所制衡。 索引器需要原始文本,但是文本可能会采用各种编码格式。索引器对中间文件和最后的索引文件进行压缩或者解
阅读全文
摘要:k gram索引的通配符查询处理技术称为k gram索引。 一个k gram代表由k个字符组成的序列。对于词项 来说, 、`ast stl $`来标识词项的开始或者结束,因此对于castle来说,所有的3 gram包括 、`cas ast stl tle $` . 在k gram索引结构中,其词典由
阅读全文
摘要:我们需要更好地确定词典中的词项表,提供一个能够容忍拼写错误以及产讯和文档中词语表达不一致时的检索方法。 对能够表示某概念的复合词或者短语(如“operating system”)进行搜索是非常有用的。正如上面Westlaw的例子所示,有时我们希望能够执行诸如“Gates NEAR Microsoft
阅读全文
摘要:术语信息检索(Information Retrieval,简称IR) 。information retrieval广义上是获取信息的意思。然而学术意义上的信息检索定义为:信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。 非结构
阅读全文

浙公网安备 33010602011771号