信息检索技术——向量空间模型

上次介绍了信息检索技术——布尔检索，布尔模型已经可以解决一个很重要的问题，就是找到和用户需求相关的文档(其中还需要很多处理，比如分词，归一化，去掉停用词等等，我们只是介绍主要的框架流程)。但是这样找到的文档会有很多，也许上千个，也许上万个，这远远不是用户所要的。用户也不会去从几万个文档中挑选自己要找的。因此我们需要对结果进行排序，把最能满足用户需求的文档放在最上面显示给用户，就像google和baidu做的一样。细心的朋友就能发现，其实信息检索是一个循序渐进的剪枝和筛选过程，最后留下的就是用户想要的。

因此，我们需要一种评分机制来进行排序，通过得分的高低排除top N的文档返回给用户。这个评分通过什么来确定呢？当然是用户查询的query和返回文档的相似度了。计算相似度有很多种方法:

方法1 Jaccard coefficient

此方法看上去很好理解，就是用query和文档共同出现的词的个数，除以一共的词数。当然也有很多问题

1 没有考虑文档中词出现的次数(没有考虑tf因素)

2 没有考虑文档的频率(没考虑idf因素)

3 没有考虑文档的长度，长文档和短文档计算相似度的差别会很大

下面我们一起看看一个非常著名的模型——空间向量模型

方法2 向量空间模型(VSM)

首先介绍2个概念，tf和idf

tf即term frequency, 表示一个term t出现在document d中的次数，这是文档中一个很重要的概念。出现次数更多意味着重要程度越高，但是需要注意的是，相关度的提高并不是和次数的提高成同比的。因此通常tf需要做如下的处理

w1= log₁₀(tf+1)

这样做就是要弱化次数对于相关度的影响

df即document frequency，表示一个term在整个文档集中出现的频率。与tf相反，一个term的重要程度是随着它在语料库中出现的频率成反比的。比如and，or等词在几乎所有文档中都出现，那么这些词的意义就很弱，而一些专业词汇只在几篇文档中出现过，显然意义更加重要。idf就是df取倒数，这里只是为了表示方便。

同样，为了弱化频率的效果，我们也做如下处理

w2= log₁₀(N/df) 其中N为文档总数，df是文档term在所有文档集合中出现的次数。

需要注明的是，tf和idf的计算有很多中变体，不一定要完全使用上面的公式，很多情况还要根据文档集合的大小具体分析。

有了上面的tfidf作为权重，我们可以很简单的计算所有词的权重，然后用一个N维的向量来表示一个文档，同样用N维的向量来表示query，query中如果没有对应的term，则该维权重为0。

于是，利用我们的数据知识，我们可以知道，在同样的空间中，如果两个向量的夹角越小，说明两个向量越相似，反之两个向量越无关。因此使用cosine定理，我们可以很简单地得到向量之间的相似度