2018年10月5日

搜索引擎基础概念(3)—— 倒排列表

摘要: 倒排列表 倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词,每个文档 会记录文档编号(DocID),单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息,这样与一个文档相关的信息被称做倒排索引项(Posting),包含这个单词的一 系列倒排索引项形成 阅读全文

posted @ 2018-10-05 09:55 码农小菜鸡 阅读(501) 评论(0) 推荐(0) 编辑

搜索引擎基础概念(2)—— 构建单词词典

摘要: Lucene单词词典 使用lucene进行查询不可避免都会使用到其提供的单词词典功能,即根据给定的term找到该term所对应的倒排文档id列表等信息。实际上lucene索引文件后缀名为tim和tip的文件实现的就是lucene的单词词典功能。 怎么实现一个单词词典呢?我们马上想到排序数组,即ter 阅读全文

posted @ 2018-10-05 09:38 码农小菜鸡 阅读(1343) 评论(0) 推荐(0) 编辑

导航