读论文啦！相关性匹配经典论文A Deep Relevance Matching Model for Ad-hoc Retrieval

我们知道:语义匹配可分为两大类，基于表示的和基于交互的。

基于表示的：学习 query 和 doc ( 放在推荐里就是 user 和 item ) 的 representation 表示，然后通过定义 matching score 函数。

基于交互的：这种方法是不直接学习query和doc的语义表示向量，而是**在底层，就让query和doc提前交互，建立一些基础的匹配信号**，例如term和term层面的匹配，再想办法把这些基础的匹配信号融合成一个匹配分。更强调待匹配两端更充分的交互，以及交互基础上的匹配

这篇文章是个基于交互的

一、首先建立起query和doc的局部交互，不同于传统基于交互的模型用一个匹配矩阵来表征query term和doc term的局部交互性步骤如下：

对于query中的每个term：
- 将它和文档的所有单词的匹配分，离散化分桶，统计在每个桶上的次数，即得到一个关于这个和文档匹配分的一个直方图，即一个向量。
 - 得到上述向量后，使用全连接层学习匹配分。注意，不同的单词 ，这些全连接层的参数是共享的。
  - 将上述的匹配分加权求和，这里的权重论文中也介绍了两者方法，其中一种是使用简单的IDF。

，

[注意]query term和doc term 的向量表示是通过WORD2VEC 训练得到的，向量训练好在模型中冻结掉，不参与训练。

理由如下：

1.词表示通过训练好的WORD2VEC已经得到很好的表示，毕竟从大量无标注数据训练出来的。

2.冻结住词向量能让我们更好地关注相关性匹配这块。

model training:由于是个排序问题，pairwise ranking loss such as hinge loss to train our deep relevance matching model.

二、Matching Histogram Mapping

上一步的输出是query和doc的局部交互性，但聪明的你肯定会想到：query和doc长度都是不定的呀！！之前基于交互的模型这个匹配矩阵保留了query和doc中词条的顺序，这对于位置敏感的任务是很有用的。但是根据多样匹配性的要求，相关性匹配并不关心位置信息，因为与query相关的内容能出现在一个长文档的任一位置。这篇文章采用了匹配直方图，因为词条之间相关性在【-1，1】之间，划分为以下五个子区间{[−1,−0.5), [−0.5,−0), [0, 0.5), [0.5, 1), [1, 1]}，[1,1]表示精准匹配，再统计落在每个字区间的个数，最终得到的形式是类似[0, 1, 3, 1, 1]这样一个向量表示。

此篇论文介绍了三种Matching Histogram Mapping方法：基于计数的；基于归一化的；基于log-COUNT的（对计数值取log。）

三、Feed forwardMatching Network

四、Term Gating Network

之前基于交互的模型在matching 矩阵上进行CNN的系列操作，这会保留了词之间的顺序信息，这对于语义匹配任务来说是重要的，因为词之间的顺序很影响整个句子的语义。虽然也有些模型利用一些pooling策略将位置敏感的交互转换成词强度的交互，MV-LSTM应用K-max pooling从matching矩阵中选取强度前K大的信号作为MLP的输入，但会带来这么有一个毛病：使得模型倾向于长文本，因为长文本含与query相关的词的可能性更大。

这篇论文Term Gating Network来建模query中term的重要性，

x_{i 就是query中第i个词的输入，有以下两种输入}

词向量：query中第i个词对应的向量；

IDF：query中第i个词对应的逆文档频率。

g_{i:query中第i个词贡献了多少相关度}

五、模型训练

很经典的pairwise ranking

此篇论文含调参说明和ablation study

Impact of Term Embeddings:实验了50，100，300，500维度，结果先上升后下降。

对于低维的词向量不足以表达起相似性匹配，但过高维度又需要更多数据来支撑

impact of Matching Histogram:为了将不定长的局部交互表征变成定长的表示，用dynamic pooling, k-max pooling来代替

impact of term gating network

这个模型的优点是：

- - 区分精确匹配和普通的相似度匹配信号
- 使用直方图，不用像卷积那样子使用padding
- 相比原始的匹配信号，直方分布图更鲁棒

缺点是：

- 失去了位置信息。但这篇论文要解决的是Ad-hoc Retrieval的问题，位置信息相对没那么重要。

posted @ 2020-12-19 16:29 打了鸡血的女汉子阅读(495) 评论(2) 编辑收藏举报

刷新页面返回顶部

不服输的小强

读论文啦！相关性匹配经典论文A Deep Relevance Matching Model for Ad-hoc Retrieval

一、首先建立起query和doc的局部交互，不同于传统基于交互的模型用一个匹配矩阵来表征query term和doc term的局部交互性步骤如下：

二、Matching Histogram Mapping

三、Feed forwardMatching Network

四、Term Gating Network

公告