MMFN论文阅读笔记(Multi-modal Fake News Detection on Social Media via Multi-grained Information Fusion)
论文标题:Multi-modal Fake News Detection on Social Media via Multi-grained Information Fusion
论文作者:Yangming Zhou, Yuzhou Yang, Qichao Ying, Zhenxing Qian, Xinpeng Zhang
论文来源:ICMR 2023,paper
论文代码:暂无
介绍
- 目前的多模态方法主要集中在文本和视觉特征的融合上,但未能有效地利用细粒度和粗粒度级别的多模态信息
- 由于模态之间缺乏相关性或每个模态所做的决策之间存在矛盾,它们受到歧义问题的困扰
该图展示了Weibo和Gossip数据集中的两个例子,展示了上述两个挑战。
上图描绘了多粒度假新闻检测的过程,其中文本和图像的单模态特征都无法验证真实性。人们会首先看到图片中的乞丐和骆驼,以及文本中的乞丐、乞讨、骆驼、截肢、膝盖、躺等文字。除了匹配的元素(标记为蓝色区域),他们会发现截肢、膝盖和谎言这三个词与图像内容(标记为红色区域)不匹配。随后,他们会从整体上理解句子和图像的语义,进行分析,判断两者是否匹配,最终得出关于新闻真实性的结论。许多现有的工作往往忽略了这一点。
下面的图展示了一个模棱两可的例子。帖子中的视觉对象和文本实体没有显著的匹配关系,语义上是不相关的。人工审查可以很容易地判断这不太可能是假新闻,因为文本内容提供了事件的正式和详细的表达。然而,过度强调多模态融合的模型可能会因为多模态特征的不匹配而产生误判。
针对上述问题,本文提出了多粒度多模态融合网络(Multigrained Multi-modal Fusion Network, MMFN)。MMFN方法集成了单模态特征和多粒度多模态融合特征,用于更准确的假新闻检测。
贡献:
- 提出了MMFN,它实现了在不同粒度级别上处理多模态特征的思想,以形成反映新闻的详细和全局方面的综合表示
- 设计了两个单模态分支,并采用CLIP预训练模型来评估跨模态相关性,进一步解决高跨模态歧义场景带来的问题
- 在三个著名的数据集上进行了全面的实验,其中MMFN优于最先进的假新闻检测方法;消融研究验证了粒度级处理和多模态特征调整的有效性
方法
MMFN的网络设计如图所示,由多模态特征编码器(预训练的BERT对文本进行编码;Swin Transformer对图像进行编码)、多粒度特征融合、单模态分支和基于CLIP相似度的模态加权以及假新闻分类器组成。
多模态特征编码器
通过BERT对文本特征编码
新闻帖子的文本内容是由文本和图像中提取出的OCR的拼接,它是一个顺序的单词列表,表示为\(\left.\mathbf{T}=\left[\begin{matrix}{t_{1},t_{2},\ldots,t_{n_{w}}}\\\end{matrix}\right.\right]\)。
对文本应用BERT编码后,得到的文本特征为\(\mathbf{T}^{b}=\left[t_{1}^{b},t_{2}^{b},\ldots,t_{n_{w}}^{b}\right]\),其中\(t_{i}^{b}\)是文本embedding中的第i个token的最后一个隐藏状态的输出,定义词embedding的维度为\(d_b\)。
通过Swin-T对图像特征编码
给定图像内容\(\mathbf{V}\in\mathbb{R}^{w\times h}\),Swin-T将其转换为序列嵌入\(\mathbf{V^{s}}=\left[v_{1}^{s},v_{2}^{s},\ldots,v_{n_{p}}^{s}\right]\),其中\(𝑤\)和\(h\)分别为图像的宽度和高度,\(v_i^s\in\mathbb{R}^{d_s}\)是模型对应于输入的第i个窗口的最后一层的输出的隐藏状态,\(n_{p}\)是Swin-T的patch的数量,\(d_s\)是视觉嵌入的隐藏大小。
通过CLIP进行多模态特征编码
CLIP是在一个庞大而多样的数据集上进行预训练的,它可以将文本和图像嵌入到一个统一的数学空间中,这自然有利于计算跨模态相关性。
以往的研究已经表明CLIP具有向未知领域泛化的强大能力。因此,本文使用CLIP多模态特征来丰富文本特征和视觉特征的全局相关信息。给定多模态新闻\(\mathbf{X}=\{\mathbf{T},\mathbf{V}\}\),我们将CLIP编码的特征表示为\(\mathbf{X}^{c}=[t^{c},v^{c}]\),其中\(t^c,v^c\in\mathbb{R}^{d_c}\)是两个长度为\(d_c\)的向量。
多粒度特征融合
通过Transformer进行细粒度融合
由于BERT和Swin-T不是多模态模型,它们提取的特征之间存在较大差距,无法直接实现信息交互。为了有效地融合帖子的文本和视觉特征,使用CT(co-attention Transformer)来实现信息的多模式互补。CT由多头注意网络和前馈神经网络组成,然后是残差连接和层归一化。
我们将不同的模态输入分别表示为\(I_1\)和\(I_2\),在CT模块中,\(I_1\)被用作为查询\(Q\),\(I_2\)被用作为键\(K\)和值\(V\)。CT模块计算每个头部的协同注意力矩阵:
其中,\(W_{i}^{q},W_{i}^{k},W_{i}^{v}\in\mathbb{R}^{d_{m}\times d_{h}}\)为投影矩阵,\(d_{h}=d_{m}/m\)和\(d_{m}\)是CT模型的维度,\(m\)是头的个数。
多头注意是将所有的协同注意力矩阵按照一个投影矩阵进行拼接:
其中,\(;\)代表连接操作。
在\(H\)和\(I_1\)经过两层归一化的FFN后,得到一个基于注意力的多模态表示:
最后,将多模态表示\(H^{\prime}\)平均池化为一个特征向量,作为CT模块的输出:
在本文的模型中,将输入BERT和Swin-T特征\(\mathbf{T}^{b},\mathbf{V^{s}}\)通过线性层映射到同一维数\(\mathbb{R}^{d_m}\)后,分别以\(I_1\)和\(I_2\)的前后不同顺序输入到一个共享权重的CT模块中,得到输出特征,即一个视觉注意加权的文本特征\(F^{\boldsymbol{v}t}\)和一个文本注意加权的视觉特征\(F^{\boldsymbol{t}\boldsymbol{v}}\):
其中,\(W^t\in\mathbb{R}^{d_b\times d_m}\),\(W^v\in\mathbb{R}^{d_s\times d_m}\)。
因为MMFN的注意力结构是在token级别进行计算的,所有能输出细粒度的融合特征。此外,MMFN中的Transformer共享权值,使CT具有模态对齐功能。
基于CLIP的粗粒度融合和多模态表示生成
本文将CLIP编码的特征融合,作为反映全局语义相关信息的鲁棒的粗粒度特征。可以认为CLIP编码器的输出\(t^c\)和\(v^c\)通过对比学习有效地消除了模态间的差距。这使得后续的网络学习能够有效地利用来自不同模态的信息。
\(t^c\)和\(v^c\)拼接后输入到具有线性层、批归一化层和ReLU激活函数的前馈神经网络中。此外,\(F^{\boldsymbol{v}t}\)和\(F^{\boldsymbol{t}\boldsymbol{v}}\)也拼接起来,并输入到另一个相同结构的前馈神经网络中。经过两个前馈神经网络,得到了融合的多模态细粒度特征\(M^f\)和粗粒度特征\(M^c\):
最后,将多模态特征\(M^f\)和\(M^c\)连接并馈送到投影头\(\Phi_{M}\)中以生成多模态表示:
单模态分支和基于CLIP相似度的模态加权
多模态融合特征一般反映的是两模态之间的关联信息,容易受到歧义的影响。为了解决多模态融合在模态歧义度高时特征表示能力下降的问题,分别设计了单模态文本分支和单模态视觉分支。
对于文本分支,在token维度上将BERT特征集合成一个特征向量,并将其与CLIP-text特征向量连接,然后将其通过两个带有ReLU激活函数的全连接网络组成的投影头,得到单模态文本表示。
对于图像分支,相似地,将池化后的Swin-T特征和CLIP-image特征拼接,然后通过与文本分支相同结构但参数不同的投影头映射来得到单模态图像表示。
文本分支和图像分支的最终表示分别为:
接下来,如果直接将单模态分支表示发送给分类器进行决策,分类器可能更倾向于使用具有更深网络的多模态表示来拟合结果,而单模态分支可能会干扰决策并导致更严重的歧义问题。为了克服这些限制,受CAFE的启发,使用CLIP余弦相似度作为多模态特征加权的系数来指导分类器的学习过程。余弦相似度计算公式如下:
虚假新闻分类器
在获得融合的多模态表示、单模态文本表示和单模态视觉表示后,我们将它们连接起来作为分类器的输入,并得到表示新闻为假的概率的输出:
其中\(\mathrm{FNC}(\cdot)\)是一个有ReLU激活函数的两层全连接网络构成的虚假新闻分类器。
目标函数是最小化交叉熵损失,以正确预测真假新闻:
实验
实验设置
数据集
本文使用三个公开的真实世界数据集,即Weibo,Twitter和Gossipcop。
Weibo是假新闻检测中广泛使用的中文数据集。训练集包含3,783条真实新闻和3,675条假新闻,测试集包含1,685条新闻。
Twitter数据集也是一个著名的假新闻检测多模态数据集。在实验中,根据已有的作品,本文过滤了带有视频的推文和非英语推文。过滤后,训练集包含4031条真实新闻和5139条假新闻,测试集包含1406篇帖子。
Gossipcop数据集是从FakeNewsNet知识库的娱乐领域收集的英文全文文章新闻数据集。训练集包含10,010条新闻,其中包括7,974条真实新闻和2,036条假新闻;测试集有2,285条真实新闻和545条假新闻。
实现细节
性能对比
所比较的方法SAFE, Spotfake, DistilBert和Spotfake+在检测假新闻的方法上都有局限性。SAFE学习了文本和视觉之间的相似性,但由于忽略了模糊性,可能会将相关性较弱的真实帖子错误地分类为假新闻。
DistilBert通过检查用户相关约束(传播结构)对文章潜在空间的影响来指导检测,但它忽略了新闻的视觉信息,从而导致性能不太有竞争力。Spotfake和Spotfake+只是简单地连接文本和视觉表示,没有足够的跨模态交互和融合,导致性能不理想。CAFE定义并利用跨模态歧义来缓解不同模态之间的歧义问题。它在Twitter和Gossipcop数据集上取得了比Spotfake、Spotfake+和SAFE更好的实验结果。
LIIMR在微博数据集上获得了更好的结果,因为它能够捕获细粒度的显著图像和文本特征。
MCAN和HMCAN的良好实验结果证明了基于Transformer的多模态融合网络的有效性。然而,这些方法只关注细粒度的特征挖掘,而忽略了提供全局语义洞察力的粗粒度信息。
MMFN相对于其他方法的优越性可归因于三个因素:
- Swin-T组件能够提取细粒度特征,补充BERT编码器生成的特征。此外,预训练的CLIP编码器能够在共享语义空间内生成具有丰富语义信息的粗粒度文本和图像特征。这允许在细粒度和粗粒度上进行互补的特征表示。
- CT组件实现了token级别的多模态交互,从而促进了多模态的细粒度融合。
- 利用基于CLIP相似度加权的单模态分支有效地缓解了歧义问题。
消融实验
-
MMFN w/o T。删除文本相关模块,仅使用Swin-T和CLIP图像编码器编码的单模态视觉特征。
-
MMFN w/o V。去除视觉相关模块,只保留BERT和CLIP文本编码器编码的单模态文本特征。
-
MMFN w/o F。删除BERT相关模块和Swin-T相关模块,不使用细粒度特性。相反,CLIP编码的文本和图像特征直接连接到一个多模态表示中,两个CLIP特征被用作两个单独的单模态表示。
-
MMFN w/o C。删除clip相关模块,不使用粗粒度特征。分类过程仅使用细粒度特征执行。
-
MMFN w/o CT。去掉CT模块,直接将BERT和Swin-T编码的特征拼接起来。
-
MMFN w/o U。文本和视觉单模态分支被删除,只使用多模态融合表示。
-
MMFN w/o W。去除clip加权模块,不对多模态融合特征进行加权。