对比学习下的跨模态语义对齐是最优的吗?---自适应稀疏化注意力对齐机制 IEEE Trans. MultiMedia
论文介绍:Unified Adaptive Relevance Distinguishable Attention Network for Image-Text Matching (统一的自适应相关性可区分注意力网络)IEEE Trans. MultiMedia
主要优势:
1)首次提出一种自适应的相关性区分注意力学习框架。在对比学习的相对概念下,通过将注意力阈值也统一到学习过程,实现一种相互提升的优化方式,能够在学习更具备对齐区分性的特征嵌入同时,获取最优的注意力区分阈值。
2)通过自适应学习的最优相关性阈值,将之前的稠密冗余跨模态注意力对齐,优化为稀疏精确的,进一步提升对齐精度。
3)通过自适应学习的最优相关性阈值,将之前的全片段图文相似度计算,优化为相关部分计算,进一步消减计算耗时。
一、前言
图像文本匹配任务定义:也称为跨模态图像文本检索,即通过某一种模态实例, 在另一模态中检索语义相关的实例。例如,给定一张图像,查询与之语义对应的文本,反之亦然。具体而言,对于任意输入的文本-图像对(Image-Text Pair),图文匹配的目的是衡量图像和文本之间的语义相似程度。
图1 图文匹配的输入和输出
核心挑战:图像文本跨模态语义关联致力于弥合视觉模态和语言模态之间的语义鸿沟,目的是实现异质模态(底层像素组成的图像和高层语义向量表示的文本)间的准确语义对齐,即挖掘和建立图像和文本的跨模态语义一致性关联对应关系。
现状分析:在训练过程中如何约束?通常使用的方法是结构化排序损失,约束的是相似度相对大小,其中匹配样本对被拉到一起,而不匹配对被推开。在图像文本匹配领域,大家通常采用的损失函数为:三元组排序损失(Triplet Ranking Loss),其的基本思想就是约束匹配的图文对相似度相对于不匹配图文对相似度高。为了提升训练效率,相对于匹配的图文对,我们仅约束最相关的不匹配图文对,即最难负例:
\begin{equation}\label{E2}
S(U, V) > S(U, V’) , \quad S(U, V) > S(U’, V).
\end{equation}
其中$S(U, V)$为匹配的图文对,而$S(U, V’) $和$S(U’, V)$表示不匹配的图文对。
如何实现图像文本的语义对齐?现有工作可以大致分为两类:1)全局关联:以整个文本和图像作为对象学习语义关联;2)局部关联:以细粒度的图像显著区域和文本单词作为对象学习语义关联。早期的工作属于全局关联,即将整个图像和文本通过相应的深度学习网络映射至一个潜在的公共子空间,在该空间中图像和文本的跨模态语义关联相似度可以被直接衡量,并且约束语义匹配的图文对相似度大于其余不匹配的图文对。然而,这种全局关联范式忽略了图像局部显著信息以及文本局部重要单词的细粒度交互,阻碍了图像文本语义关联精度的进一步提升。因此,基于细粒度图像区域和文本单词的局部关联受到广泛的关注和发展,并快速占据主导优势。对于现有的图像文本跨模态语义关联范式,核心思想是挖掘所有图像片段和文本片段之间的对齐关系。
图2 图文匹配的发展现状
交叉注意力网络SCAN通过区域和单词之间的相互关注机制来捕捉所有潜在的局部对齐,并激发出了一系列工作。跨模态交叉注意力旨在挖掘所有图像区域和文本单词之间的对齐关系,通过局部语义对齐来推理整体相关性。得益 于细粒度的模态信息交互,基于交叉注意力的方法取得显著的性能提升,并成为当前图像文本跨模态语义关联的主流范式。
图3 跨模态交叉注意力范式SCAN
现有局部关联范式问题分析:
图4 动机示意图,现有注意力对齐范式的相关性区分是静态固定的,不能自适应动态的相关性学习过程。不可避免的导致次优的特征嵌入学习(不能最大化的分开相关和不相关跨模态特征)和引入干扰噪声(不能准确的排除无关语义)
对于给定的图像$V$和文本$U$,我们将图像表示为$V=\{v_j | j\in[1, n], v_j \in \mathbb{R}^{d}\}$,其中$n$为图像显著区域的个数,将文本表示为$U=\{u_i | i\in [1, m], u_i \in \mathbb{R}^{d}\}$,其中$m$为文本单词的个数。然后,现有方法通常利用注意力机制来挖掘模态间的共享语义,并通过共享语义衡量图文的相似程度$S(U, V)$:
\begin{equation}\label{E1}
S(U, V) = \frac{1}{m}\sum_{i=1}^{m}R(S^{V}_{i},u_{i}) + \frac{1}{n}\sum_{j=1}^{n}R(S^{U}_{j},v_{j}),
\end{equation}
其中$S^{V}_{i}$表示图像中与第$i$个检索单词$u_{i}$相关的共享语义,$S^{U}_{j}$则表示文本中与第$j$个检索区域$v_{j}$相关的共享语义, $R(\cdot)$表示相似度衡量函数。
共享语义$S^{V}_{i}$和$S^{U}_{j}$分别是基于跨模态注意力机制的图像和文本相关片段的聚合:
\begin{equation}\label{E3}
S^{V}_{i}=\sum_{j=1}^{n}w_{i,j}v_{j}, \quad S^{U}_{j}=\sum_{i=1}^{m}w_{j,i}u_{i},
\end{equation}
其中$w_{i,j}$和$w_{j,i}$分别是聚合图像区域和文本单词的注意力权重。具体的,在现有通用注意力范式中,注意力权重是根据‘单词-区域’对的相似度$s_{ij}=cosine(u_{i}, v_{j}), i=1,\ldots, m, j=1,\ldots, n$计算,首先采用经验性阈值零来抹除负的单词-区域’对相似度,通常利用ReLU操作:
\begin{equation}\label{E4}
\hat{s}_{ij}=\left\{\begin{array}{l}{s_{ij}, \quad if \quad s_{ij} > 0,} \\ {0, \ \ \quad if \quad s_{ij} \leq 0,}\end{array}\right.
\end{equation}
其中小于0的相似度$s_{ij}$被置零,然后通过Softmax归一化操作得到注意力权重。
然而,现有通用注意力范式完全忽略了在图文相似度的相对大小关系约束下,潜在相关性阈值在训练过程中并不是绝对固定的。 现有方法将阈值的相关性区分与特征嵌入学习孤立,不能使模型在学习过程中自适应准确地区分变化的相关和不相关‘单词-区域’相似度分布,这不利于学习更具判别性的图像/文本嵌入特征,也会导致不相关语义对共享语义的干扰。 因此,统一特征嵌入学习和相关阈值,以明确区分相关和不相关的片段,是迫切需要的。
二、总体框架
图5 总体框架图
总体框架如图5所示,其包含两个主要模块组成联合优化框架:自适应相关性可区分学习模块和跨模态注意力匹配模块。
通过这两个模块,将特征嵌入学习和相关性阈值纳入到一个统一的框架,并且在训练过程中相互促进。在前向优化过程中,第一个模块旨在根据相关和不相关‘单词-区域’片段的相似度分布自适应地学习最优相关性阈值。同时,第二个模块旨在借助相关性阈值实现更好的匹配性能,在其后向优化过程中,将改进特征嵌入学习以产生更具区分性的片段特征,因为学习的阈值可以显式的促进相关和不相关分布的分离.
具体而言 ,在第一个模块中,为解决“如何自适应学习最优的相关性区分?”问题,我们提出了一种新的自适应学习方法,即对相关和不相关‘单词-区域’对的相似度分布进行连续建模,然后最小化区分错误概率来求解最优阈值,这将显示区分和分离两个分布。在第二个模块中,为解决“如何在注意力匹配中整合最优相关性区分?”问题,所提框架有两个新颖的方面,即:(1)使用学习的相关性阈值排除不相关的内容片段,注意力可以更精确地关注相关片段,极大地促进语义对齐学习,达到更好的匹配精度; (2) 在图文相似度计算阶段,学习的相关性阈值可以避免不相关查询的计算,大大减少和缓解了现有图文匹配方法的检索耗时。
下面简单介绍两个模块的实现思路,具体实现请见论文。
1) 自适应相关性可区分学习模块
为了明确区分相关和不相关的‘单词-区域’片段对的相似度,我们首先需要对两种类型的片段对的相似度进行采样并构造为:
\begin{eqnarray}
\mathcal{S}^{+}_{k} =[s^{+}_{1}, s^{+}_{2}, s^{+}_{3}, \ldots, s^{+}_{i}, \ldots],\label{E5}\\
\mathcal{S}^{-}_{k} =[s^{-}_{1}, s^{-}_{2}, s^{-}_{3}, \ldots, s^{-}_{i}, \ldots],\label{E6}
\end{eqnarray}
其中$\mathcal{S}^{+}_{k}$和$\mathcal{S}^{-}_{k}$可以认为是相关和不相关‘单词-区域’片段对的标签,它们在训练过程中动态更新的,$ k\in [1, b]$表示一个训练小批次中的更新索引(是批量大小)。
然后,我们可以估计关于‘单词-区域’相似度$s$的相关分布$F^{+}_{k}(s)$和不相关分布$F^{-}_{k}(s)$。 我们期望找到一个最优阈值,以最小的错误概率区分两个分布:
\begin{equation}\label{E7}
t_{k} = \min_{\{t\}} \ \mathcal{P}_{error}(F^{+}_{k}( s), F^{-}_{k}( s), t),
\end{equation}
其中学习的相关性阈值$t_{k}$ 根据训练中的两个不同分布进行自适应调整。 此外,在学习过程中,我们还利用动量更新策略来平滑不同更新索引的阈值:
\begin{equation}\label{E8}
t_{k} = \alpha t_{k} + (1-\alpha)t_{k-1},
\end{equation}
其中$t_{k-1}$是前一次更新的学习阈值,$\alpha$为平滑超参数。
2)跨模态注意力匹配模块
在基于注意力的匹配过程中,显式最优相关性区分阈值可以很容易地被整合到一个统一的学习框架,使阈值可以调整特征嵌入学习,便于学习更具备区别性的片段特征,从而更好地区分相关和不相关语义。我们的目标是准确地找到模态之间的共享语义来衡量图像-文本的相似性,这反映在两个检索方向上,即文本到图像text-to-image $(U-V)$和图像到文本image-to-text $(V-U)$。与通用的注意范式不同,我们利用生成两个掩码以提高图像-文本匹配性能,包括提高准确性和减少检索时间。
首先,为了聚合相关内容以形成共享语义,我们采用学习阈值$t_{k}$,通过设计内容掩码函数$Mask_{c}^{t_{k}}(\cdot)$的注意力权重为:
\begin{equation}\label{E13}
\begin{aligned}
S^{V}_{i}&=\sum_{j=1}^{n} Mask_{c}^{t_{k}}(w_{i,j})v_{j},\\
S^{U}_{j}&=\sum_{i=1}^{m} Mask_{c}^{t_{k}}(w_{j,i})u_{i},
\end{aligned}
\end{equation}
其目的是使模型只关注大于相关阈值的片段,过滤掉其他不相关片段的干扰,实现稀疏化注意力对齐。 这允许模型在学习过程中根据相关和不相关的分布边界自适应地聚合共享语义,这与现有的总是使用经验阈值零的方法完全不同。
其次,我们通过设计查询掩码函数$Mask_{q}^{t_{k}}(\cdot)$进一步区分查询片段的相关性,从而图文相似度的计算写为:
\begin{equation}\label{E14}
\begin{aligned}
S(U, V) =& \frac{1}{m}\sum_{i=1}^{m} Mask_{q}^{t_{k}}(R(S^{V}_{i},u_{i}))+ \\
& \frac{1}{n}\sum_{j=1}^{n} Mask_{q}^{t_{k}}(R(S^{U}_{j},v_{j})),
\end{aligned}
\end{equation}
其目标是避免无关查询片段的相似度计算$R(\cdot)$,这与现有的冗余计算所有片段查询相似度的方法完全不同。
三、创新和优势
(1)主要创新点。与现有的孤立相关性阈值和特征嵌入学习的方法不同,我们将它们整合到一个统一的联合优化框架中,这是这项工作的主要创新点。 本质上,它利用自适应学习的阈值来促进学习更具备判别性的特征,同时也使用这些特征来学习最优相关性阈值,这是一个相互促进的联合优化过程,从而产出更易区分相关和不相关的片段。 此外,我们没有使用隐式的经验阈值零,而是利用显式和最优相关性阈值来设计精细的掩码函数,可以准确地排除不相关的内容/查询片段,从而提高精度和效率。
(2)图文相似性推理过程。所提框架是一个端到端的优化网络。我们强调学习到的特征嵌入空间和相应的最优阈值是共现的,就如同一把锁(即特征嵌入空间)和其对应的钥匙(即最优阈值)。 因此,在推理阶段,我们可以直接使用最优阈值,无需重新学习,因为嵌入空间已经确定。 因为,在带来显著性能提升的同时,最优的相关性阈值学习不会在相似度检索推理阶段带来任何的资源开销,验证了其简单却有效。
(3)泛化和可解释性。通常,由于图文匹配中的排序损失约束了相关性和不相关性之间的相对关系,在学习过程中,真正的潜在相关性阈值并不是绝对固定的,这意味着孤立相关性阈值的问题在现有图文匹配通用注意力中是普遍存在的。 我们提出的自适应相关性可区分学习是解决这个问题的一种广义辅助方法,可以很容易地与现有的跨模态注意技术集成。 此外,注意力的可解释性得到进一步增强,因为我们可以明确区分相关和不相关的片段。
(4)检索耗时和计算成本。在相似度测试阶段,我们的框架不需要额外计算学习阈值,而且可以大大减少无关查询片段的相似度计算(减少约 67%)。 因此,对于整体计算复杂度,我们可以减少$R(\cdot)$上 67% 的计算负担。 当$R(\cdot)$和大多数方法一样是余弦相似度时,它的计算复杂度是$\mathcal{O}(d)$,其中$d$是特征维度。 虽然包括了对片段相似度的最大操作,但我们有片段数$m\ll d$和 $n \ll d$,因此它们的计算负担非常小。 根据实验,与现有的方法相比,我们可以将检索耗时相对减少约 50%-73%。
四、参考论文
If you found this useful, please cite the following paper:
Zhang, Kun, Mao, Zhendong, Liu, Anan, Zhang, Yongdong (2022). Unified Adaptive Relevance Distinguishable Attention Network for Image-Text Matching. IEEE Transactions on Multimedia. preprint, DOI : 10.1109/TMM.2022.3141603, 2022.
@ARTICLE{9676463, author={Zhang, Kun and Mao, Zhendong and Liu, An-An and Zhang, Yongdong}, journal={IEEE Transactions on Multimedia}, title={Unified Adaptive Relevance Distinguishable Attention Network for Image-Text Matching}, year={2023}, volume={25}, number={}, pages={1320-1332}, doi={10.1109/TMM.2022.3141603}}