Information Retrieval --- Retrieval Model
一、布尔模型
AND查询:倒排记录表的合并(求交集)
OR查询:倒排记录表的并集
查询优化:按df从小到大处理
二、向量空间模型
2.1 基本tf-idf向量空间模型
a.查询与文档的相关度采用余弦相似度计算:
b.tf-idf权重计算(对数词频-逆文档频率):
c.文档长度归一化:平衡短文档和长文档,降低短文档的相似度,提高长文档的相似度。
2.2 隐形语义索引LSI(降维后的空间向量模型):对词项-文档矩阵进行SVD分解(奇异值分解)。
三、概率检索模型
1.Logistic回归(特征选择困难)
基本思想:为了求Q和D相关的概率P(R=1|Q,D),通过定义多个特征函数fi(Q,D),认为P(R=1|Q,D)是这些函数的组合。
2.二值独立概率模型BIM(假设条件独立,需要估计参数)
基本思想:BIM模型通过Bayes公式对所求条件概率P(R=1|Q,D)展开进行计算。对于同一Q,P(R=1|Q,D)可以简记为P(R=1|D)。
a.多元伯努利分布(考虑是否出现)
b.多项分布(考虑出现次数)
*pi,qi参数计算
3.BestMatch BM25模型
四、语言检索模型
1.统计语言模型:文档中语句的生成满足某些规则,并服从统计规律。
2.查询似然模型QLM(文档以多项分布生成)
基本思想:检索问题转化为估计文档D的一元语言模型MD,也即求所有词项w的概率P(w|MD)
3.翻译模型:X为文档,Y为查询。
4.KL距离(相对熵)模型
五、基于排序机器学习的检索模型
1.基于布尔权重学习
2.基于实数权重学习:带松弛变量的SVM
基本思想:评分函数是两个因子的线性组合:
1 查询和文档的向量空间相似度评分 (记为 α)
2 查询词项在文档中存在的最小窗口宽度 (记为 ω)
3.基于序回归的排序学习