读论文啦!相关性匹配经典论文A Deep Relevance Matching Model for Ad-hoc Retrieval

 我们知道:语义匹配可分为两大类,基于表示的和基于交互的。

基于表示的:学习 query 和 doc ( 放在推荐里就是 user 和 item ) 的 representation 表示,然后通过定义 matching score 函数。

基于交互的:这种方法是不直接学习query和doc的语义表示向量,而是**在底层,就让query和doc提前交互,建立一些基础的匹配信号**,例如term和term层面的匹配,再想办法把这些基础的匹配信号融合成一个匹配分。更强调待匹配两端更充分的交互,以及交互基础上的匹配

 

 

这篇文章是个基于交互的

一、首先建立起query和doc的局部交互,不同于传统基于交互的模型用一个匹配矩阵来表征query term和doc term的局部交互性步骤如下:

对于query中的每个term:
- 将它和文档的所有单词的匹配分,离散化分桶,统计在每个桶上的次数,即得到一个关于这个和文档匹配分的一个直方图,即一个向量。
 - 得到上述向量后,使用全连接层学习匹配分。注意,不同的单词 ,这些全连接层的参数是共享的。
  - 将上述的匹配分加权求和,这里的权重论文中也介绍了两者方法,其中一种是使用简单的IDF。

,

 

[注意]query term和doc term 的向量表示是通过WORD2VEC 训练得到的,向量训练好在模型中 冻结掉,不参与训练。
理由如下:
1.词表示通过训练好的WORD2VEC已经得到很好的表示,毕竟从大量无标注数据训练出来的。
2.冻结住词向量能让我们更好地关注相关性匹配这块。
model training:由于是个排序问题,pairwise ranking loss such as hinge loss to train our deep relevance matching model.

二、Matching Histogram Mapping

上一步的输出是query和doc的局部交互性,但聪明的你肯定会想到:query和doc长度都是不定的呀!!之前基于交互的模型这个匹配矩阵保留了query和doc中词条的顺序,这对于位置敏感的任务是很有用的。但是根据多样匹配性的要求,相关性匹配并不关心位置信息,因为与query相关的内容能出现在一个长文档的任一位置。这篇文章采用了匹配直方图,因为词条之间相关性在【-1,1】之间,划分为以下五个子区间{[−1,−0.5), [−0.5,−0), [0, 0.5), [0.5, 1), [1, 1]},[1,1]表示精准匹配,再统计落在每个字区间的个数,最终得到的形式是 类似[0, 1, 3, 1, 1]这样一个向量表示。

此篇论文介绍了三种Matching Histogram Mapping方法:基于计数的;基于归一化的;基于log-COUNT的(对计数值取log。)

三、Feed forwardMatching Network

四、Term Gating Network

之前基于交互的模型在matching 矩阵上进行CNN的系列操作,这会保留了词之间的顺序信息,这对于语义匹配任务来说是重要的,因为词之间的顺序很影响整个句子的语义。虽然也有些模型利用一些pooling策略将位置敏感的交互转换成词强度的交互,MV-LSTM应用K-max pooling从matching矩阵中选取强度前K大的信号作为MLP的输入,但会带来这么有一个毛病:使得模型倾向于长文本,因为长文本含与query相关的词的可能性更大。

这篇论文Term Gating Network来建模query中term的重要性,

 

 xi 就是query中第i个词的输入,有以下两种输入

词向量:query中第i个词对应的向量;

IDF:query中第i个词对应的逆文档频率。

gi:query中第i个词贡献了多少相关度

五、模型训练

很经典的pairwise ranking 

 

 

 

 

 

 

 

 

 

 

此篇论文含 调参说明和ablation study
​ Impact of Term Embeddings:实验了50,100,300,500维度,结果先上升后下降。
​              对于低维的词向量不足以表达起 相似性匹配,但过高维度又需要更多数据来支撑
​ impact of Matching Histogram:为了将不定长的局部交互表征变成定长的表示,用dynamic pooling, k-max                pooling来代替
​ impact of term gating network
这个模型的优点是:
- - 区分精确匹配和普通的相似度匹配信号
  - 使用直方图,不用像卷积那样子使用padding
  - 相比原始的匹配信号,直方分布图更鲁棒
缺点是:
- 失去了位置信息。但这篇论文要解决的是Ad-hoc Retrieval的问题,位置信息相对没那么重要。
posted @ 2020-12-19 16:29  打了鸡血的女汉子  阅读(483)  评论(2编辑  收藏  举报