倒排索引

1、倒排索引相关概念:

文档、文档集合、文档编号(DocId)、单词编号

倒排索引、单词词典、倒排列表、倒排文件

2、带有单词频率、文档频率和出现位置信息的倒排索引实例(实现term->DocID的映射关系,并附加主要的结果排序特征)

3、单词词表存储形式:哈希加链表、B树或B+树

4、倒排列表

在实际的搜索引擎中,并不保存倒排索引项中的实际文档编号,而是代之以文档编号差值(D-Gap),目的是为了增加数据压缩率。

5、建立索引的方式

两遍文档遍历法(2-pass in-memory inversion)  内存容量要求高、速度慢

排序法(Sort-based Inversion)   词典永不写磁盘;三元组形式;局部排序,中间结果文件合并(分配固定大小内存,内存-磁盘模型)

归并法(Merge-based Inversion)    词典随中间结果文件写磁盘;完整内存索引结构;对局部倒排索引结果合并(分配固定大小内存,内存-磁盘模型)

6、动态索引

倒排索引、临时索引、已删除文档列表

7、索引更新策略

完全重建策略、再合并策略、原地更新策略、混合策略

8、查询处理

一次一文档(doc at a time)、一次一单词(term at a time)、跳跃指针(skip pointers)

9、多字段索引

多索引方式、倒排列表方式、扩展列表方式(Extent List)

10、短语查询

位置信息索引(position index)、双词索引(nextwork index)、短语索引(phrase index)、混合方式

11、分布式索引

posted @ 2016-06-12 17:00  CN.SnailRun  阅读(299)  评论(0编辑  收藏  举报