Automatic Rumor Detection on Microblogs:A Survey
Automatic Rumor Detection on Microblogs:A Survey
在微博客上的虚假消息自动化检测:概述
1、abstract 摘要
在许多应用上,现代社交平台持续增长的大量的多媒体内容是很有价值的。然而由于社交
媒体的开放性和便利性滋生了许多的线上虚假消息。没有任何的核实,这些虚假消息将会
立即传播到数以千计的用户,并且造成严重的伤害。通过利用机器学习技术挖掘开放网络上提供的丰富内容,人们已经采取了许多措施来自动粉碎网络谣言。大部分谣言检测方法可以分成三类:1.基于手工特性的分类方法。2.基于传播的方法。3.基于神经网络的方法。
我们通过与其他其他文献中坐的定义进行了比较,我们介绍了一种正式的虚假消息定义。我们总结了到目前为止的自动谣言检测研究,并且描述了三种范式的谣言检测细节。我们也介绍了现存的为谣言检测的数据集,这些数据集将会让以后的在这领域的研究者受益。对于在微博客上的未来谣言检测,我们把我们的建议作为总结。
关键字:谣言检测、虚假消息检测、微博客、社交媒体
2、Introduction 介绍
社会多媒体平台产生了很多宝贵的数据,有很多是有害数据,容易误导人
标注的分类
- 半自动标注(专业人工标注)
- 手动标注
- 自动标注
虚假消息自动检测面临着许多挑战
- semantic understanding.机器(语义理解)困难
- 假消息有大量的变种,适用于一种类型的算法不使用于另外一种
- multimodal data.多模态数据。除了纯文本之外,社交媒体数据还经常是图片、视频。
- 假消息在传播期间,用户可以讨论和评论,这些用户的行为构成了潜在的假消息的上下文
大部分应对假消息自动检测的挑战的方法-二分类
将这些方法分成三类:
- 基于传统方法的手工特性
- 基于传播学的方法
- 基于神经网络的方法
假消息定义
假消息分为主观假消息和客观假消息
基于手工特性的假消息分类方法
- 假消息检测的定义是二元分类问题
- 二分类方法最关键的一步是提取假消息的主要特性。而且内容不独立,也不是来自不同的形式。
- 社会背景反应不同用户的关系,并且描述了谣言传播的过程,因此我们定义社会背景特性,这些特性是用户行为和传播网络提取出来的。
假消息的内容特征
- 文本特征:
描述新闻事件的文本,他们提供事件的细节,并可能包含对故事的某些观点或情绪。 - 图像/视频:
假新闻有时信息会提供视觉材料来支持它的故事。 - 其他内容:
社交媒体的特定交流风格将提供其他信息性内容,如主题标签(#)、用户引用(@)、外部来源的链接和emoj图标等。
文本特征
常用的一般文本特征有三类:词汇特征、句法特征和主题特征。
- lexical features:词汇特征是在谣言的词级提取的特征,可以是词汇的统计,也可以是词汇的谣言模式,也可以是情感词汇。
- syntactic features:句法特征表现在句子层面上的谣言;其基本的句法特征是谣言信息的简单统计,如关键词的数量、句子的情感得分或极性、词性标注等。
- topic features:主题特征提取自消息集的层次,其目的是理解消息及其在语料库中的潜在关系。
TF-IDF算法:词频-逆文档频次算法。是一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度。
Latent Dirichlet Allocation (LDA) :是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布.
3.2、社会环境特征
与传统媒体相比,社交媒体的关键特征之一是对各种互动的开放性。
社会特征的三个主要特征:用户特征、传播特征、时间特征。
用户特征:
用户特征来源于用户社交网络。谣言是由少数用户创造并被许多用户传播的。分析其特征可以为谣言检测提供重要线索。用户特征可以描述单个用户或由多个相关用户组成的用户组的特征。
传播特征
传播特征来自于谣言传播的融合网络。
时间特征
时间特征标志着谣言传播的重要时间点或生命周期模式。
3.3 Classification Methods 分类方法
为了找到最合适的分类方法,大多数工作都是使用多个分类器进行实验,包括决策树、贝叶斯网络、随机森林、逻辑回归、支持向量机。
PROPAGATION-BASED APPROACHES 基于传播的方法
社交媒体上的信息和事件之间存在一些潜在的相关性。相似的信息在事件中往往具有相同的准确性。通过挖掘实体间的关系,提出了基于传播的方法,并从整体上评价事件和事件的可信度。基于传播的谣言检测通常有两个主要步骤:
- 构建可信性(credibility)网络。谣言检测中的实体,如消息、用户、主题或事件,被定义为网络工作中的节点。每个节点都有一个初始可信度值来表示其对真实性的信心。这些实体之间的联系是根据它们在社交媒体上的语义关系或交互关系来定义和计算的。
- 可信度传播。在一定的节点一致性和网络平滑度假设下,可信赖度值沿着加权链路在所构建的网络上传播,直到收敛,最终得到每个实体的可信度评价.
基于传播的谣言检测方法的三种典型实现,即用户消息事件网络、层次内容网络和冲突观点网络
4.1 User-Message-Event Network 用户消息事件网络
构建一个由用户、消息和事件在两种直觉下构成的网络:
- 可信用户一般不会对谣言事件提供可信度。
- 可信消息之间的链接比谣言消息的链接有更大的权重,因为谣言事件中的消息不会做出连贯的声明
4.1.1 Network structure 网络构建
网络结构如下:
- 每个用户都链接到一个消息,如果显示该消息。
- 如果每个消息属于某个事件,则将其链接到该事件
- 消息之间相互链接,表示消息之间的关系
- 事件与其他事件相关联,表示事件间的关系
4.1.2 Credibility propagation可信度传播
每个消息的初始可信度值来自基于特征的分类器的结果。然后使用类似网页排名的迭代在这个网络上传播。在每次迭代中,可信度值更新如下:
- 对于每一条消息,它的可信度值受到三个方面的影响:它链接到的用户和事件以及其他链接消息。这些方面的贡献经过加权,以确保在更新其可信度时具有可比性。
- 对于每个事件,它的可信度值受到两个方面的影响:它链接到的消息和其他链接事件。因此,其可信度值也随之更新。
- 对于每个用户,它链接到的所有消息的平均信用度都是计算出来进行更新的。
4.2 Hierarchical Content Network 分层网络内容
提出了由事件内容的不同语义层次构成的三层可信度网络。为了最小化用户的影响,关注事件更深层次的语义关系。
4.2.1 Network structure 网络结构
层次化的内容网络有三层实体:消息层、子事件层和事件层
网络的构成:如果一个消息被聚集成该子事件,则该消息被链接到该子事件;子事件链接到该事件;所有消息都相互链接,子事件也是如此
4.2.2 Credibility propagation 可信度传播
在假设具有较大链路权值的实体具有相似的可信度值的情况下,将可信度传播问题表示为一个图优化问题。
4.3 Conflicting Viewpoints Network 相互冲突的观点网络
微博客(microblogs)信息之间存在两种关系。一种关系是支持,即表达相同观点的消息相互支持彼此的可信度。另一种关系是对立的,表达冲突观点的信息会降低彼此的可信度
4.3.1 Network structure 网络结构
利用微博中相互矛盾的观点,提出了一个支持和反对关系的可信度网络
- 矛盾的观点挖掘。冲突的观点是通过一个联合的主题-观点模型来挖掘的。此模型将每个消息表示为主题和每个主题的视点的混合。然后对这些主题-视点对进行约束,形成最终的冲突视点。
- 链接的定义。任何两个消息之间的链接都是基于挖掘的冲突观点的结果来计算的。链接的权值计算为来自主题模型的两个消息的概率表示之间的距离。而链接的极性是由视点聚类定义的:消息具有相同的视点形成正链接,否则它们形成负链接。
- 网络建设。事件中的所有消息都彼此链接。它们之间的链接如上所述。
4.3.2 Credibility propagation 可信度传播
针对网络中的负链接(the negative links),提出了一种损失函数,它可以保证具有支持关系的消息具有相似的可信度,而具有相反关系的消息具有相反的可信度,或者两者的可信度都接近于零。在给出损失函数的基础上,给出了损失函数的最优解。
DEEP NEURAL NETWORKS APPROACHES 深度神经网络的方法
基于深度学习的方法旨在自动学习谣言数据的深度表示。
根据神经网络的不同结构,将神经网络方法进一步细分为两类:
- 循环神经网络(Recurrent Neural Networks):基于RNN的结构,将谣言数据建模为序列数据。关键是RNN中各单元之间的连接形成一个直接的循环,从而建立一个内部的网络状态,使其能够捕捉到具有谣言扩散特征的动态时间信号。
- 卷积神经网络:CNN由堆叠的卷积和池化层组成,其结构有助于对重要的语义特征进行建模。基于CNN的方法,假设CNN不仅可以自动从输入实例中提取局部-全局的重要特征,还可以揭示这些高级交互。
5.1 RNN-based methods 基于RNN的方法
一个谣言事件由成千上万个帖子组成,因此他们将帖子按时间间隔进行批量处理,并将它们作为一个时间序列中的单个单元,然后使用RNN序列建模。在每个时间间隔中,它们将使用词汇表中前k个词汇的tf*idf值作为输入。他们的模型旨在学习在监督下的谣言数据的时间和文本表示,大量的实验表明,他们的模型比那些利用手工制作的特性的工作取得了出色的性能。
引入了注意力机制。
多模态
5.2 CNN-based methods 基于CNN的方法
cnn+rnn
6 Datasets 数据集
KWON
MediaEval
RUMDECT
RUMOURREVAL
MULTI
7 CONCLUSION AND PERSPECTIVES 总结和观点
未来研究的四个主要挑战:
- 早期检测
- 说明检测,解释性谣言检测需要算法对谣言中的每一个成分进行更密切的监控,这是一个有待解决的挑战
- 长文本谣言检测,长文本有丰富的语义信息,可能只是文章的一部分是假的,其他是真的,要指出文章中假的部分和真的部分是一个挑战。
- 多模态谣言检测,