所以燃

Information Retrieval --- Retrieval Model

一、布尔模型

AND查询：倒排记录表的合并（求交集）

OR查询：倒排记录表的并集

查询优化：按df从小到大处理

二、向量空间模型

2.1 基本tf-idf向量空间模型

a.查询与文档的相关度采用余弦相似度计算：

b.tf-idf权重计算（对数词频-逆文档频率）：

c.文档长度归一化：平衡短文档和长文档，降低短文档的相似度，提高长文档的相似度。

2.2 隐形语义索引LSI（降维后的空间向量模型）：对词项-文档矩阵进行SVD分解（奇异值分解）。

三、概率检索模型

1.Logistic回归（特征选择困难）

基本思想：为了求Q和D相关的概率P(R=1|Q,D)，通过定义多个特征函数fi(Q,D)，认为P(R=1|Q,D)是这些函数的组合。

2.二值独立概率模型BIM（假设条件独立，需要估计参数）

基本思想：BIM模型通过Bayes公式对所求条件概率P(R=1|Q,D)展开进行计算。对于同一Q，P(R=1|Q,D)可以简记为P(R=1|D)。

a.多元伯努利分布（考虑是否出现）

b.多项分布（考虑出现次数）

*pi,qi参数计算

3.BestMatch BM25模型

四、语言检索模型

1.统计语言模型：文档中语句的生成满足某些规则，并服从统计规律。

2.查询似然模型QLM（文档以多项分布生成）

基本思想：检索问题转化为估计文档D的一元语言模型MD，也即求所有词项w的概率P(w|MD)

3.翻译模型：X为文档，Y为查询。

4.KL距离（相对熵）模型

五、基于排序机器学习的检索模型

1.基于布尔权重学习

2.基于实数权重学习：带松弛变量的SVM

基本思想：评分函数是两个因子的线性组合:
1 查询和文档的向量空间相似度评分 (记为 α)
2 查询词项在文档中存在的最小窗口宽度 (记为 ω)

3.基于序回归的排序学习

posted on 2013-12-16 20:56 Jizhiyuan 阅读(845) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航

公告