信息检索的知识点的整理

document：相当于数据块里的一条记录

field: 相当于数据库里的一列

term: 指某个field的词，英文单词一般会转词的原型

tf：term在field内的词频率函数

df：term在全文档集合内的频率函数

idf：term在全文档集合内的逆向频率函数（一般取反再取log）

position info：倒排信息，一般含docid，tf和term在对应field出现的位置，索引存储最占空间的一部分

query

布尔查询

词典：存term的结构，磁盘内一般用排好序的多级跳转表，或者b+树，内存里实现用hash，红黑树或者字典树

正向关系：文档——》包含的所有term

反向关系：term——》包含该term的所有文档

topN：指最符合搜索条件的前N条结果，可以用堆结构获取最高的N条。

查全率

查准率

F测度

索引分割的好处

词典的压缩

倒排表的压缩

倒排表的合并策略

Lucene的索引合并

BM25相关度打分

VSM相关度打分

词项邻近度打分

未完待续。。。

posted @ 2014-11-06 00:42 白帆mvp 阅读(657) 评论(0) 收藏举报

刷新页面返回顶部