Zoom Out and Observe:News Environment Perception for Fake News Detection
Zoom Out and Observe:News Environment Perception for Fake News Detection
拉远视界并观察:基于新闻环境感知的虚假新闻检测
作者:盛强 曹娟 中国科学院大学2022ACL中科院计算所数字内容合成与伪造检测实验室
文章地址:https://aclanthology.org/2022.acl-long.311.pdf
文章代码地址:https://github.com/ICTMCG/News-Environment-Perception
概念:
虚假新闻检测方法:
(1)基于社交上下文的特征:利用了社交媒体上用户对新闻的行为,例如转发、网络结构等。但是这些社交上下文的特征只能在一段时间后才能获得,不能用于及时地检测出新出现的假新闻。
(2)基于新闻内容的特征:对于传统的机器学习方法,人工设计特征很难。使用深度学习的模型没有这个问题,但是其性能受训练数据规模的限制,缺少新鲜高质量的样本用于训练。
模型的脆弱性:1存在内部的不稳定性。2对外界的干扰和变化比较敏感。3在外来干扰和外部环境变化的胁迫下,容易遭受损害而难以复原。
摘要
现有方法进行谣言检测利用新闻帖子的语言模式,聚焦(zoom in)用知识源和读者回复来核实其内容。这些方法忽视了这个新闻被创造并且传播的外部新闻环境。新闻环境代表最近主流的媒体观点和大众关注,这是假新闻制造的重要灵感。为了捕捉新闻帖子的外部信号,我们“拉远镜头”(zoom out)来观察新闻环境,提出了 News Environment Perception Framework (NEP)。
对每一个帖子我们从最近的主流新闻中构建它的宏观和微观的新闻环境。然后我们设计了一个流行导向和新奇导向的模块来感知有用的信号,并进一步帮助最终的预测。在新构建的数据集上的实验表明,该方法能够有效地提高基本假新闻检测器的性能。
论文贡献:
1.本文首次提出了使用新闻环境信息增强虚假新闻检测,打破了“事实信息应当作为证据”的惯性思维。
2. 以新闻环境为基准,本论文首次探索在检测模型中对造假者的传播意图进行定量刻画。
3. 本文提出的框架在跨时段划分、类别高度不平衡等场景下,均取得了良好的检测性能。
一句话概括论文
本论文通过建模新闻传播时的环境信息,从流行度和新颖度两个角度出发,刻画了假新闻背后的传播意图,有效提高了对新发事件中虚假新闻的检测性能。
1 引言
当前的虚假新闻检测大致可以分为两类:
1.Post-only 顾名思义,这类方法只会使用待检测新闻本身的信息,一般是基于新闻的情感、文风、语言运用等方面抽取特征。这类方法得到的信息是有限的,而且模型是较为脆弱的
2.Zoom in 仔细观察post(帖子)本身,和他相关的社交上下文或知识源。基于社交上下文的方法会捕捉待测新闻所引起的用户反馈或者造成的传播网络等,这类方法是没有办法做到及时检测的,因为它需要等待社交上下文的积累。基于知识源的方法往往会基于网页、维基百科或者知识图谱来查验原始的待测新闻中所描述的实事是否真实。局限性是当事件真相还未知的时候该方法是不奏效的,例如新发生的事件。
本文提出的:
3.Zoom out 观察的不是post(帖子)更细致的部分,而是把post放到它原始发生的环境中,也就是新闻环境中去观察,去看该post的传播情况和它与整个新闻环境的关系,在该角度下我们能更容易的获得有效的外部信息,而且这些信息在发布之时就能得到,因此可以支持实时的虚假新闻检测。
除了直接观察帖子的内容模式,现有方法常常聚焦于通过用户回复寻找更丰富的帖子级的信息和用知识源核查事实。虚假新闻要获益,需要大量的曝光和传播,制造者需要想办法提高帖子的曝光和在上下文(即环境)吸引观众。
假新闻帖子p,它的新闻环境包含最近三天的新闻条目(2019/11/12 to 2019/11/14),可见p落于热点事件叙利亚-中国世界杯预选赛,与其他事件相比注重于新奇方面(叙利亚不寻常的庆祝)。
宏观新闻环境(macro news environment): 对整个最近新闻条目的集合
微观新闻环境(micro news environment): 与事件相关的子集
对p叙利亚为在球赛胜过中国停战的假新闻,在新闻环境中可观察到2个信号。
1、热度 宏观环境看,p在五个不同领域的事件中与相对流行的叙利亚-中国世界杯比赛相关。会带来更大的热度
2、新颖 微观看,大部分帖子只关注比赛本身,p提供了一个新的角度关于叙利亚不寻常的庆祝,来抓住观众的注意,增加传播。
这些潜在的有用信号,在zoom in 模式中被无视。为此本文提出了 News Environment Perception Framework (NEP),对帖子p,建立2个新闻环境,MACROENV和MICROENV,利用最近的主流新闻来从不同观点促进感知。建立了热度导向和新颖导向的模块来描述p和这些新闻条目的关系。环境感知向量被融合进现有的假新闻解码器中进行预测。
我们能从新闻环境中得到哪些信息呢?
前提假设:新闻环境是同期虚假新闻造假的重要启发与激励
接下来试着从一个造假者的角度去思考这个问题!
对于一个造假者而言肯定是希望自己的虚假新闻能够被广泛的曝光并且能产生病毒式的传播,因为这样才能获得更多虚假新闻收益,但是怎么去做到这一点?一个自然而然的想法就是看一下当下的新闻环境中到底在传什么,到底什么事情正在发生。
从造假者的角度而言,他其实更想找到一个比较热点的问题,但是在造假的时候他还会考虑另一个层面,也就是说他更希望在这个事件中提供一些新颖的当然也不真实的角度和知识,从而吸引更多的人关注。所以,基于上述的动机一条假新闻就被炮制而成了,
因此,根据新闻环境信息可以评估待测新闻对流行度和新颖度的追逐程度。
正式地讲,虚假新闻会更倾向于跟随一个流行的事件而产生,因为这样可以获得更大的曝光率和影响力,而从新颖度上讲,虚假新闻往往会提供一些新颖的负信息吸引读者的注意力,然后增强虚假新闻的传播。
因此,之前的建模方法都是基于content或者knowledge base的信息来判断新闻是不是虚假的,而本文不仅有content还有新闻的环境信息,当然在实际的建模过程中新闻环境信息会具象为对待测新闻的流行度和新颖度的评估。
2模型
基于上述假设提出了新闻环境感知(NEP)的框架:
给定待测新闻p,首先用最近的新闻数据建立宏观微观新闻环境 (MACROENV and MICROENV),用待测新闻环境关系生成环境感知向量vp,mac和vp,mic,将两个环境感知向量融合进待测新闻的表达o,o来自虚假新闻解码器,预测p的真假。
主要分为三个部分:
- 新闻环境构建,从两个不同的粒度构建了两种不一样的新闻环境
- 新闻环境感知,从建模好的两个新闻环境中评估这条待测新闻和新闻环境之间的关系
- 预测,将感知到的新闻环境信息与原本我们正常虚假新闻检测器能检测到的特征进行融合,并最后支持我们对这条消息真假的二分类
2.1NEP-新闻环境构建
如何构建有效的新闻环境?
我们认为一个有效的新闻环境他应该包含了一些新闻条目,这些条目应当能够反应当时主流观众的焦点和他们的注意力呈现怎样的分布,为此我们选择将一条待测消息发布前若干天内的由主流媒体所发布的那些新闻,把他们收集起来作为新闻环境的基本要素,比如在中文事件里会去采集像新华社央视新闻所发布的那些新闻短微博,在美国的话可能去采集CNN比较大型的媒体。
那么这个新闻环境如何能便利我们对流行度/新颖度的评估呢?
我们做了两层的约束,对于一条待测新闻,一方面找它发布前一段时间内(比如三天内)所有上述的主流媒体发布的新闻,构建所谓的宏观环境,也就是说这个宏观环境是时间约束的,它与待测新闻基本上是同期的,另一方面我们为了防止后面的评估中带有太多的无关噪声成分,我们继续从宏观环境中检索了与待测消息最相似的top-k的items,这些items构成了一个在时间和事件上双重约束的微观环境,一个小的dump。
那么这两个新闻环境将会在不同的粒度为后面的流行度和新颖度评估提供基础。
新闻环境要反应最近的主流焦点和大众热点,为此我们收集主流媒体的新闻条目作为环境元素,ε是在p之前发布的新闻条目集合,MACROENV:
tp是p的发表日期, te是新闻条目e的发表日期。
MICROENV(是MACROENV中与p相关的子集):
k决定比例。
用预训练模型M (BERT等)获得post/news的表示,p,e的初始表示即为[CLS]token的输出:
2.2NEP-感知
如何将待测消息与新闻环境有那么多新闻条目去联合起来,来实现一个对流行度和新颖度倾向性的评估?
本质上是一对多的关系。
但其实我们认为不管是流行度还是新颖度到最后本质上都可以化为待测新闻与新闻环境中所有条目之间的相似性的一个变化。所以在这里我们将这个问题进行了拆解,将一对多的关系换成了一对一的相似度的度量,然后最后我们再把他总结起来。
从图中可以看到,我们会在宏观环境中感知待测新闻的流行度,从全量的环境中我们才能看出一个新闻热不热门,同时选择去微观环境中去观察待测新闻的新颖程度,新颖度其实是建立在同一个事件的前提下而产生的,就是在这个事件中待测新闻如果是假新闻可能更愿意提供一些新颖的角度,一些新颖的侧面信息。
流行度导向的宏观感知中所做的工作:
首先会将待测post与宏观环境中所有的新闻条目进行语义向量表示,并计算他们的相似度。这样其实我们得到了一个宏观环境中新闻条目数量相同的相似度列表,这个列表就是我们去建模所谓关系的一个基础,但是考虑到这个列表它本身是一个不等长的列表,所以我们选择将列表进行总结,我们将它浓缩成一个固定维度的向量,在这里我们借用了信息检索中之前会用到的高斯核池化的技术,相当于我们对于整个的similarity list做了一个软的计数工作,将计数最后所产生的向量总结成了最终的kernel output,这也是对新闻环境感知的输出。最后会做一个聚合,因为核输出本身是没有任何内容信息的,它只是一个相似度的比较,所以说当我们缺少内容的时候这个相似度列表它是像一点好,还是不像一点好,其实是缺少基本的calibration的,所以我们在最后聚合的时候还会将post vector,还有宏观环境的中心向量,以及kernel output一起放在一块进行聚合,最后得到的vp,mac就是宏观环境感知向量。
p的主事件在MACROENV中的热度,用p和其他新闻条目的相似性估计代表对p的事件热度的感知(比如εmac中的i条新闻条目),对其应用高斯核池化软计算一个分布模拟。
微观环境中所做的工作:
我们希望去评估新颖度,与宏观环境差不多。
在相似事件的微观环境中来考虑p有多新颖。如果p新颖,那么在相似事件中,它就是一个特异点。
在表示、相似度计算、高斯核池化后都能得到一个kernel output,比较不同的是我们不仅为待测帖子和微观环境中的向量做了这些操作,我们还为这个微观环境的中心向量也做了上述的步骤,之所以这么做是因为我们想要在获得这两个kernel output以后,对他们进行比较,也就是说我们希望看到待测的这条消息,与微观环境中所有新闻条目之间的关系,相较于微观环境中心与微观环境所有条目之间的关系比较来看是怎样的,我们认为这样才能凸显出所谓的新颖度,最后我们还是会像刚才一样进行聚合,得到所谓的vp,mic,
2.3NEP-预测
最后一步就是在感知到的新闻环境信息的增强下进行预测:
我们希望新闻环境感知得到的信息可以去增强任意的神经的虚假新闻检测器的性能,所以我们倾向于将感知到的信息去融合到基本的fake new detector 的特征当中,而不是去提供一种全新的方法,为了自适应的去融合刚才两个新闻环境感知的向量和基本的fake new detector所输出的特征,所以我门在这里实行了一个门融合的机制,最后在门融合得到的特征的支持下,我们会通过一个简单的mlp做real或fake之间的分类,达到最后预测的效果。
为了将NEP与其他虚假新闻检测更好的融合,应用了门机制自适应融合:
门向量g = sigmoid(Linear(o⊕vp,mac)),o是post-only的检测器的最后一层特征。
这个公式也可以连接别的特征,损失函数利用交叉熵损失。
3实验
本工作的实验部分希望能回答三个问题:
- 新闻环境感知NEP到底对虚假新闻检测的性能提升有没有帮助?
- 建模的微观与宏观环境到底有多么的有效?
- 从分析的角度出发,新闻环境到底是在什么场景下能够帮助到虚假新闻的检测?
3.1数据集增强
由于现有的数据集并没有提供所谓的同期新闻环境信息,因此对数据集进行了augment,合并、处理以及补充构建了两个全新的数据集。我们合并了一些主要的假新闻检测数据集,并从下面的一些主流媒体中采集了一些帖子或新闻标题作为新闻环境数据的基本要素。
Chinese Dataset
post:我们合并了多个微博数据集的不重复部分(Ma et al., 2016)(excluding those unverified), (Song et al., 2019),(Zhang et al., 2021) and (Sheng et al., 2021a) 以实现更好的多年新闻,并避免与特定新闻环境(例如,一个充满COVID-19新闻)的虚假关联。
为了平衡这些年来真实/虚假类的帖子数量,我们添加了由新闻验证系统NewsVerify验证的新闻帖子,并对合并后的集合重采样。最终的集合包含2010年到2021年微博的39,066个已验证的帖子。
News Environment: 收集了六个有代表性粉丝超过3000万的主流新闻媒体的新闻条目。处理后2010年到2021年共有583208条。
English Dataset
post: 我们合并了(Kochkina et al., 2018) (excluding unverified), (Augenstein et al., 2019) (excluding those without claim dates), and (Shaar et al., 2020)。 我们将中性贴子去掉并重新采样后,从2014年到2018年共获得6483个贴子
News Environment:由于Twitter的限制,我们使用来自赫芬顿邮报、NPR和每日邮报( Huffington Post, NPR, and Daily Mail)的新闻标题(有的话,加简短的描述)作为新闻推文的替代。根据 AllSides Media Bias Chart偏差率,这三家媒体分别为左、中、右。我们保存了2014 - 2018年的新闻标题,获取了1003646条新闻。
3.2性能比较
NEP在六个基础模型上均有提升,在虚假新闻上的提升比真实多,因为更关注虚假新闻,也证明环境对捕获虚假新闻特点有效。“zoom-in”的方法比“post-only”有效,但提升较小,可能是因为有效的证据难以获得。
3.3对ENP变体的评价
消融实验
两组消融实验,用一种或者两种环境感知向量,当不与fake news detectors的输出o联合时是否能够起效。
w/o Environment Perception Modules: 去除其中一个环境感知模块,可见MACROENV和MICROENV都是必须的并且起到了补充的作用。
(基模型 best-performing models BERT-Emo+NEP and DeClarE+NEP)
Effects of the proportion factor r for the MICROENV (BASE:BERT-Emo+NEP)
微观环境MICROENV的比例r的影响,在T=3下,以step=0.05,尝试0.05到0.30区间的r。
r提升会使MICROENV集变大,但对准确率影响有限,在r=0.1后几乎没有影响,过于小的r可能不能覆盖足够的相似条目,而太大也许会涵盖过多无关条目。
Effects of the day difference T for the MACROENV.(BERT-Emo+NEP)
天数T对宏观环境MACROENV的作用,令T=1,3,5,7,9。
可见准确率如图4表(b),和表(a)类似,可解释为T=3是一个比较合适长度的时间,让事件发展,并不至于被遗忘。
3.4环境分析
Categorization of macro- and micro-preferred samples.
宏观和微观偏好样本分类
根据门向量的权重,我们观察了更依赖宏观环境或微观环境的前1%的假新闻样本。手工分类这些样本探索MACRO/MICRO环境提供了什么信息。
MACRO环境对自然灾害和意外事故更有效(地震,空难等)
MICRO环境对社会生活更有效(抢劫,教育)
这与我们的直觉一致:
l 宏观环境对自然灾害或事故类假新闻更有效。这符合我们的直觉的,因为上述事件往往是爆炸性的,所以假新闻只要蹭上这个热点,就乘上了传播的“东风”;
l 微观环境对日常生活的时间更有效。这可能是因为在常见事件中,假新闻创作者更需要绞尽脑汁,提高假新闻的新颖度。
案例研究:
宏观环境对于自然灾害和事故的样本更加有效
微观环境往往对于日常的社会生活的事件更加的有用一些
4实用性讨论
在不平衡的在线数据集进行评估
我们对其中一个基模型和它引入NEP框架后的版本进行了线上系统数据测试。测试数据来自“睿鉴识谣”系统。与离线数据集不同,真实世界的数据集高度不平衡:该数据集有30,977条真新闻和309条假新闻,比例约为100:1。从下图可以看到,我们的框架对宏F1值和spAUC(适用于数据高度不平衡场景)均有明显提高。
该方法对实用系统的友好性
• 及时性。该方法可以实现基于外部信息的即时虚假新闻检测。
• 兼容性。该方法可以与各种已有的虚假新闻检测器兼容并联合训练。
• 数据的易获取性。我们需要使用的主流新闻媒体数据是比较容易获取的。
5总结与展望
我们提出利用新闻环境信息来辅助虚假新闻检测,并设计了对应框架NEP。据我们所知,这是第一篇考虑新闻环境在虚假新闻检测中作用的工作。我们同时构建了一个新的数据集,在线上和线下的测试都证实了其有效性。未来我们在考虑引入更多类型的环境信息或将该模式扩展到更丰富的场景下。