向量空间模型
词项权重计算
词项频率
如何才能对检索的文档进行评分和排序呢?一个合理的想法是,如果一篇文档包含的查询词的数目越多,那么这篇文档与查询相关的可能性就越高,就意味着更可能是用户所需要的文档。
【如果只考虑词频,那么长文本会更可能包含更多的查询词而获得评分优势;
需要消除文档长度对评分的影响,这也是向量空间模型采用余弦相似度的原因,从而实现文档长度归一化】
在向量空间模型中,我们先基于每个查询词与文档的匹配情况对文档打分,然后对所有查询词项在文档中的得分求和
得分高的排在前面。
如何根据响应的查询给文档打分呢?
向量空间模型中,根据文档中的词项频率给文档打分。
对于一个查询(包含一个或者多个查询词),将查询词t在文档中出现的次数作为t在文档中的权重,
对所有查询词在文档中的权重求和作为文档对于给查询的得分;
词项频率作为权重
----词袋模型
逆文档频率
使用词频频率作为权重有一个严重缺陷,无区别地对每一个词项计算权重,事实上,文档中两个词频相同的词极有可能具有不一样的重要性(即权重)
需要一种机制来降低这些在大量文档中都出现的词项在查询得分计算中的重要性
文档频率较高的词项给予较低的权重,反之,文档频率较低的词项给予较高的权重