论文信息

论文标题:Divide-and-Conquer: Post-User Interaction Network for Fake News Detection on Social Media
论文作者:Erxue Min, Yu Rong, Yatao Bian, Tingyang Xu, Peilin Zhao, Junzhou Huang,Sophia Ananiadou
论文来源:2022,WWW
论文地址:download 
论文代码:download

Background

  挑战:

    (1) 谣言检测涉及众多类型的实体和关系,需要一些方法来建模异质性;
    (2) 社交媒体中的话题出现了分布变化,显著降低了虚假新闻的性能;
    (3) 现有虚假新闻数据集通常缺乏较大规模、话题多样性和用户的社交关系;

  基于文本的谣言检测方法存在如下两个问题:

    (1) 首先,在新闻的社会背景下的信息是复杂的和异构的;

    (2) 其次是分布偏移问题——训练分布不同于测试分布;

  分布偏移例子:如虚假新闻分类器是在 包含政治、体育、娱乐等普通主题的标记数据进行训练的,但是在测试集上出现了出现了诸如“黑天鹅事件”的新主题。

  贡献:

    • We construct and publicize a new fake news dataset with social context named MC-Fake2 , which contains 27,155 news events in 5 topics, and their social context composed of 5 million posts, 2 million users and induced social graph with 0.2 billion edges.
    • We propose a novel Post-User Interaction Network (PSIN), which applies divide-and-conquer strategy to model the heterogeneous relations. Specifically, we integrate the post-post, user-user and post-user subgraphs with three variants of Graph Attention Networks based on their intrinsic characteristics. Additionally, we employ an additionally adversarial topic discriminator to learn topic-agnostic features for veracity classification.
    • We evaluate our proposed model on the curated dataset in two settings: in-topic split and out-of-topic split. The superior results of our model in both settings reveal the effectiveness of the proposed method.

2 Related work

2.1 Fake News Datasets

  • BuzzFeedNews specializes in political news published on Facebook during the 2016 U.S. Presidential Election.
  • LIAR collects 12.8K short statements with manual labels from the political fact-checking website.
  • FA-KES consists of 804 articles around Syrian war.
  • CREDBANK contains about 1000 news events and 60 million tweets, labeled by Amazon mechanical Turk.
  • Twitter15 contains 778 reported events between March 2015 to December 2015, with 1 million posts from 500k users.
  • FakeNewsNet is a data repository with news content and related posts, containing political news and entertainment news which are checked by politifact and gossiocop.
  • FakeHealth is collected from healthcare information review website Health News Review, it contains over 2000 news articles, 500k posts and 27k user profiles, along with user networks.
  • COAID collects 1,896 news, 183,654 related user engagements, 516 social platform posts about COVID-19, and ground truth labels.
  • FakeCovid is a multilingual cross-domain dataset of 5,182 fact-checked news article for COVID-19 from 92 different fact-checking websites.
  • MM-COVID is a multilingual and multidimensional COVID-19 fake news data repository, containing 3,981 pieces of fake news content and 7,192 trustworthy information from 6 different languages.

2.2 Social Context-based Fake News Detection

  划分为三类:

    • Sequential Modeling [20, 24, 30, 52]
    • Explicit responding path modeling [4, 19, 26, 47]
    • Implicit attention modeling

3 Problem statement

  假新闻数据集定义:D={T,GU,GUP}

  News event 定义:Ti={p1i,p2i,pMii,GiP,u1i,u2i,uNii,GiU,GiUP}

  News event can be considered as a heterogeneous graph  two types of nodes: post and user, and three types of edges: post-post, user-user and user-post.as shown in Figure 2:

    

  在本文的数据集中,每一个 Ti 均有一个主题标签 yiC{Politics,Entertainment,Health,Covid19,SryiaWar}  和 groundtruth veracity label yiV{F,R} (i.e. Fake, news or Real news)。

  问题目标:ProbleM 1. Given the training set  Ttrain ={Ttrain ,Ytrain V,Ytrain C} , and the testing set  Ttest ={Ttest } , how to learn a classifier  f:TiyivfromTtrain   and then predict the veracity label  Ytest   for  Ttest .

4 Methodlogy

  谣言检测是个异质图分类问题,由于谣言检测数据集的特殊性:post-post 之间的子图结构和 user-user 之间的子图结构有显著差别,所以本文采取分治的策略。
  图结构被划分为三部分:post propagation tree、user social graph、post-user interaction graph
  总体框架如下:
  

4.1 Hybrid Node Feature Encoder

  对于 event i Ti,节点集合 {p1i,p2i,pMii,u1i,u2i,uNii},每个节点拥有 textual features 和 meta features。Post 和 user 的 meta feature 如下:

  

4.1.1 Text Content Encoding

  常用的文本编码方式:TF-IDF、CNN、LSTM、Transformer、BERT。

  本文的文本词向量通过 CNN 获得,设 cj 为第 j 个节点提取的文本嵌入。

4.1.2 Meta feature based Gate Mechanism

  文本嵌入压缩了重要的语义信息,然而,每个节点的重要性是不同的。直观地说,转发数或关注者数等元特征(meta feature)意味着受欢迎程度和社会关注,这可用来推断给定节点的重要性。因此,设计了一个基于元特征的门机制来过滤文本特征,如 Figure 4 所示。

  

  具体来说,给定第 j 个节点的元特征 mj,我们计算其贡献分数,以衡量第 j 个节点的文本特征的重要性:

    gj=σ(Wmmj+bm)

  其中 σ 是一个激活函数,它将输入映射到 [0,1] 中,Wmbm 都是可训练的参数。最后,第 j 个节点的表示如下:

    nj=gjcjmj

  其中, 是连接操作符。因此,给定输入序列 {p1,p2,pM,u1,u2,uN} 对于第 i 个新闻事件,我们得到帖子特征矩阵  P={h1P,h2P,,hMP}用户特征矩阵 U={h1U,h2U,hNU}

4.2 Post Tree Modeling

  

 

  采用图结构建模的原因:

    1:帖子深层之后任然存在联系,尤其是对于源推文极具争议性的时候;

    2:回复贴对于源帖的密切回复;

  本文提出的图结构信息建模的方法是:Tree-GAT ,包括两个模块:
    • Edge Augmentation
    • Depth-aware Graph Attention

  设 AP 为第 i 个新闻事件的传播树 GP 的邻接矩阵,AijP=1 表示第 i 个帖子回应了第 j 个帖子。我们计算增广邻接矩阵 A^P 如下:

    ABUP=d=1dmax(AP)dATDP=ABUPA^P=ABUP+ATDP

  其中,dmax 为新闻事件中传播树的最大深度。

Depth-aware Graph Attention

  给定增强的邻接矩阵  A^P 和帖子特征矩阵 H0={h10,h20,,hM0},本文使用 GATv2 作为 backbone 

    eij=aLeakyReLU(W[hihj])

    αij=Softmax(eij)=exp(eij)kN(i)exp(eik)

    hi=σ(jN(i)αijWdhj)
  其中:
    • aRd is a parameter vector
    • W=[WsWd] with Ws and Wd are parameter matrices to project source nodes and target nodes
    • eij and αij are unnormalized and normalized attention

  远程节点中存在语义漂移,故对注意力进行修改:

    eij=aLeakyReLU(W[hihj]+v[d(i,j)])

  其中,d(i,j)=didj+dmaxdi 为第 i 个节点的深度,dmax 为所有树的最大深度,v[d(i,j)]Rd 是可训练的位置向量,使网络能够感知节点之间的相对位置(相对时间顺序和相对深度)。此外,还在更新方程中添加了残差连接:

    hi=σ(jN(i)αijWdhj)+hi

  假设 H0=P ,经过 K 层 Tree-GAT ,有 P^=HK={h^1P,h^2P,,h^MP}

    Afriend =AUAUAfollow =AUAfriend Afollowed =AUAfriend 

  为了区分消息传递过程中的不同边,我们提出了 Relational Graph Attention Network(R-GAT),该方法计算节点之间的注意得分如下:

    eij=ar(i,j)LeakyReLU(W[hihj])

  其中,

    r(i,j){0,1,2} 代表三种边的关系,a0,a1,a2=a0+a1 是三个不同向量参数分别代表了 follow relations,followed relations 和 friend relations。

  和 post 节点类似进行标准化和更新步骤(带残差)。

4.4 Post-User Interaction

  用户和帖子之间的交互也为准确性检测提供了线索。例如,有一些异常的账户可能会在一个新闻事件中发布数百条帖子。这些账户可以是出于某些目的而旨在传播信息的机器人,也可以是希望中断传播过程的事实核查账户。后传播树建模和用户网络建模都不能捕获这样的模式。为此,我们提出了一个 user-post fusion layer 来丰富用户节点和帖子节点的表示。

  我们根据用户的行为构建了一个用户发布图。如 Figure 6 所示,我们假设给定帖子的传播者可以表达其产生的社会效应模式,而用户传播的帖子描述了用户的特征。基于此假设,我们计算了 bipartite user-post graph 的邻接矩阵 A^UPRN×M 为:

    A^UP=AUP(d=1dmax(AP)d)

  其中,AUPRN×M 为 is-author graph GUP 的邻接矩阵,AP 是上述增强图的邻接矩阵。为了在 user-post graph 中使用 GNN,我们首先使用两个投影矩阵将它们的表示投影到一个统一的空间中:

    HP=WPP^,HU=WUU^

  然后,我们将该图视为齐次图,得到 H=Concat(HP,HU)。邻接矩阵的定义为:

    A~=[AUPT00 AUP]

  我们使用标准的 GATv2 来表示节点,每个层的更新规则是:

    H=GATv2(H,A~)+H

  我们在 post-user interaction layers 之后得到 H~={h~1P,h~2P,,h~MP,h~1U,h~2U,,h~NU} 。然后我们获得帖子和用户的最终表示为 P={h1P,h2P,,hMP}U={h1U,h2U,,hNU},其中,hiP=Concat(h^iP,h~iP)hiU=Concat(h^iU,h~iU)

4.5 Aggregation

  给定帖子和用户的表示:PRM×d,URN×d,我们采用三个全局注意层将它们分别转换为两个固定大小的向量。全局注意层的表述为:

    r=k=1KSoftmax(f(hk))hk

  其中, f:RdR 是一个两层 MLP。最后,我们得到两个合并向量 pu,并将它们连接起来,得到第 i 个新闻事件的最终表示为 z=Concat(p,u)

4.6 Topic-agnostic Fake News Classification

  

  如 Table 1 所示,不同主题之间的传播特征差异很大,我们提出了一个辅助 adversarial module 和 a veracity classifier 来学习类判别和域不变节点表示。总体目标如下:

    L(Z,YV,YC)=LV(Z,YV)+γLC(Z,YC)

  其中,γ 是平衡参数。LVLC 分别表示准确性分类器损失和主题分类器损失。Z 是整个数据集提取的特征矩阵,YV 是准确性标签,YC 是主题标签。具体介绍如下:

4.6.1 Veracity Classifier Loss

  准确性分类器损失 LV(Z,YV) 是为了最小化准确性分类的交叉熵损失:

    LV(Z,YV)=1Nti=1NtyiVlog(fV(zi))

  其中 fV:RdR 是一个MLP分类器,zi 是第 i 个新闻事件的特征,yiV{0,1} 是相应的准确性标签,Nt 是训练集中的实例数。

4.6.2 Topic Classifier Loss

  主题分类器损失 LC(Z,YC) 要求不同主题的特征提取过程后的表示是相似的。为了实现这一点,我们学习了一个由 θC 参数化的主题分类器 fC(Z;θC) 和一个对抗性训练方案。一方面,我们希望 fV 能够将每个新闻事件分类为正确的准确性标签。另一方面,我们希望来自不同主题的特征相似,这样主题分类器不能区分新闻事件的主题。在我们的论文中,我们使用梯度反转层(GRL)来进行对抗性训练。数学上,GRL 被定义为 Qλ(x)=x,具有反转梯度 Qλ(x)x=λIθC 通过最小化交叉熵主题分类器的损失来进行优化:

    LC(Z,Yt)=1Nti=1NtyiClog(fC(zi))

  其中,yiC 表示第 i 个新闻事件的主题标签。对 LV(Z,YV)LC(Z,YC) 进行联合优化,并采用标准的反向传播算法对所有参数进行优化。

5 Experiments

5.1 Baselines

  • PPC_RNN+CNN [23]: A fake news detection approach combining RNN and CNN, which learns the fake news representations through the characteristics of users in the news propagation path.
  • RvNN [25]: A tree-structured recursive neural network with GRU units that learn the propagation structure.
  • Bi-GCN [4]: A GCN-based rumour detection model using bi-directional GCN to represent the propagation structure.
  • PLAN [17]: A post-level attention model that incorporates tree structure information in the Transformer network.
  • FANG [28]: A graphical fake news detection model based on the interaction between users, news, and sources. We remove the source network modeling part for fair evaluation.
  • RGCN [33]: The relational graph convolutional network keeps a distinct linear projection weight for each edge type.
  • HGT [13]: Heterogeneous Graph Transformer leverages nodeand edge-type dependent parameters to characterize the heterogeneous attention over each edge.
  • PSIN : Our proposed Post-User Interaction Model.
  • PSIN(-T): PSIN without the adversarial topic discriminator. We compare it with other baselines to demonstrate the superiority of our network architecture.

5.2 Settings

  对于PPC_RNN+CNN、RvNN、Bi-GCN和PLAN,我们将post特征与相应的用户特征连接起来,生成节点特征,以适应它们的架构。

  对于 RGCN 和 HGT,我们将 post 和用户视为两组节点,这与 PSIN 是相同的。

  我们在两种设置下评估这些方法:主题内分割和主题外分割。

  在主题内分割设置中,我们将数据集分成训练集、验证集和测试集,比例为 6:2:2,进行了三次分割以追求稳定结果。

  在主题外分割设置中,我们根据 Table 2 所示的主题分割数据集,我们将数据分割为训练和验证集,比例为 8:2,以构建训练集和验证集。

    

  由于数据集中的标签是不平衡的,我们采用广泛使用的 AUC 和 F1 评分作为评价的评价度量。

  我们将每个事件的帖子数限制在 2000 个,优化器选择 Adam,学习速率从 {103,104,105} 中选择。

  batch_size 设置为 32,词向量维度和网络 hidden size 大小设置为 100 ,dropout 从 0.10.9 之间选择,每个部分的神经网络层数从 {2,3,4} 中选择, γ{0.01,0.1,0.5,1.0} 中选择, λ{0.01,0.1,1.0} 中选择。

5.3 Overall Performance

  

  

  这里 FANG 是利用了 user 和 post 交互信息的图模型(公平起见去掉了原网站信息),FANG 在域内的结果次于 Bi-GCN 和 PLAN(没有有效利用 post 内容和结构),但是在跨域分类结果相反,这代表 post-tree 方法更可能过拟合,从而削弱其对新主题事件的泛化能力。

  PSIN 在这两种设置下都优于 PSIN(-T),而且在跨域设置中差距更显著,这表明对抗性主题分类器减轻了过拟合问题,并使模型学习泛化性更强的特征来准确性检测。

5.4 Ablation Study

  

  (-G) 没有文本特征提取器的门控机制, (-G) denotes our model with the gated mechanism for text feature extractor.(?without?)

  (-A) post网络和post-user网络中都没有边缘增强技术的模型。

  (-C) 没有post-user交互网络。

  (-T) 表示没有对抗性的主题分类器。在跨域作用明显

5.5 Early Detection

  

5.6 Visualization of Effects of the Adversarial Topic Discriminator

  

  为了进一步分析对抗性主题鉴别器的有效性,我们将PSIN特征提取器学习到的最终特征用tSNE定性可视化 如图所示。

posted @   别关注我了,私信我吧  阅读(658)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Obsidian + DeepSeek:免费 AI 助力你的知识管理,让你的笔记飞起来!
· 分享4款.NET开源、免费、实用的商城系统
· 解决跨域问题的这6种方案,真香!
· 一套基于 Material Design 规范实现的 Blazor 和 Razor 通用组件库
· 5. Nginx 负载均衡配置案例(附有详细截图说明++)
Live2D
点击右上角即可分享
微信分享提示