使用点击二分图传导计算query-document的相关性

之前的博客中已经介绍了Ranking Relevance的一些基本情况（Click Behavior，和Text Match）：http://www.cnblogs.com/bentuwuying/p/6714064.html，这里就不再赘述了。针对之前在计算Ranking Relevance的过程中遇到的问题：Click Behavior对长尾的或者根本没出现过的query-doc pair无效，Term Match无法解决近义词和语义隔离问题，Topic Match解释性差的问题。本篇博客介绍的paper中的这种计算Ranking Relevance的方法能够有效地解决上述的问题：结合了Click Behavior和Text Match两方面的信息，并利用点击日志构成二分图，根据二分图进行传导，学习到query和doc各自的向量表达式，最终收敛之后进行query-doc relevance的计算。

该方法的特点有：

1. 利用二分图的传导，从相似的query（或者doc）中提取term来丰富当前query（或者doc）的term表达。

2. 在二分图的传导过程中，利用query-doc pair的点击信息，来平滑query和doc的vector中各个维度的term weight大小。

解决之前Click Behavior中的Sparsity和Noisy的问题。

该paper的三方面贡献在于：

1. 可以使query和doc在同一空间上生成词向量考虑

2. 对于未曾有点击行为的query和doc也可以进行该空间词向量的估计

3. 最终计算的效率较高，可以用于商业的搜索引擎

1. 已有点击行为的query-doc relevance计算

用Doc表示文档集合，用Query表示query集合，则点击二分图的节点集合为Doc U Query。对于一个query-doc pair：q_i和dj，如果它们之间有至少一次点击，则二分图中这两个节点之间会有一条边相连接，且权重为该query-doc pair的点击次数。点击二分图的示例如下图所示。现在假设语料的长度为

要知道，这个方法的目的是要将所有的query和doc表示成一个公共向量空间上的向量（可以是query的term space，也可以是doc的term space）。它利用二分图的某一边的节点上的conetnt information 初始化该边的节点的vector，然后利用点击信息进行传导，这样就可以在传导过程中，将具有代表性的term的weight提高，将不具有代表性的term的weight降下去。

首先，我们需要初始化二分图中某一边的节点的向量表示，例如，我们选择query这一边的节点，将所有的query进行分词，构成词典，便得到query space上各个query的向量表示了。每一个维度代表了一个term，每个维度（term）可以看成是一个feature，这便是term级别的表示，过去的研究表明，term级别的表示方法解释性较强，便于验证和debug（虽然同时会遇到无法解决近义词和语义隔离问题，不过我们这里介绍的方法可以对这种问题进行解决）。通过让query和doc都使用公共向量空间的表示方式（这里是query space），我们可以消除query与doc的语义隔离问题。

下一步便是query & doc的向量在二分图上的传导了。基本思路是利用query vector结合起来表示在query下有点击的doc的vector，反之亦然。如果某些query之间拥有较多的共同点击的doc，则这些query是相似的query，它们的vector representation应当较为相似，反之doc之间亦然。

当然，我们这样计算的前提是，click information可以很好地表示query-doc的relevance，并且relevance的大小与click number的多少是正相关的。

具体的向量传导步骤如下：

1. 我们假设从query side开始。初始化的时候，每个query都用它自身的term表示成一个vector（利用one-hot方式），每个term的weight与term出现的次数成正比，最后将每个query的vector进行归一化处理。初始化矩阵（包含所有query的vector）可以用表示。