倒排索引
1、倒排索引相关概念:
文档、文档集合、文档编号(DocId)、单词编号
倒排索引、单词词典、倒排列表、倒排文件
2、带有单词频率、文档频率和出现位置信息的倒排索引实例(实现term->DocID的映射关系,并附加主要的结果排序特征)
3、单词词表存储形式:哈希加链表、B树或B+树
4、倒排列表
在实际的搜索引擎中,并不保存倒排索引项中的实际文档编号,而是代之以文档编号差值(D-Gap),目的是为了增加数据压缩率。
5、建立索引的方式
两遍文档遍历法(2-pass in-memory inversion) 内存容量要求高、速度慢
排序法(Sort-based Inversion) 词典永不写磁盘;三元组形式;局部排序,中间结果文件合并(分配固定大小内存,内存-磁盘模型)
归并法(Merge-based Inversion) 词典随中间结果文件写磁盘;完整内存索引结构;对局部倒排索引结果合并(分配固定大小内存,内存-磁盘模型)
6、动态索引
倒排索引、临时索引、已删除文档列表
7、索引更新策略
完全重建策略、再合并策略、原地更新策略、混合策略
8、查询处理
一次一文档(doc at a time)、一次一单词(term at a time)、跳跃指针(skip pointers)
9、多字段索引
多索引方式、倒排列表方式、扩展列表方式(Extent List)
10、短语查询
位置信息索引(position index)、双词索引(nextwork index)、短语索引(phrase index)、混合方式
11、分布式索引