谣言检测——（Bi-GCN）《Rumor Detection on Social Media with Bi-Directional Graph ConvolutionalNetworks》

论文信息

论文标题：Rumor Detection on Social Media with Bi-Directional Graph ConvolutionalNetworks
论文作者：Tian Bian, Xi Xiao, Tingyang Xu, Peilin Zhao, Wenbing Huang, Yu Rong, Junzhou Huang
论文来源：2020,WWW
论文地址：download
论文代码：download

1 Abstract

　　目前的深度学习方法只考虑了深度传播的模式，而忽略了谣言检测中广泛分散的结构。

　　在本文中，提出了一种新的双向图模型，即双向图卷积网络（Bi-GCN），通过操作自上而下和自下而上的谣言传播来探索这两个特性。它利用一个具有自顶向下的谣言传播有向图的 GCN 来学习谣言传播的模式；以及一个具有相反的谣言扩散有向图的GCN来捕获谣言分散的结构。此外，来自来源帖子的信息都涉及到GCN的每层，以增强来自谣言根源的影响。

2 Introduction

　　近年来的深度学习方法，如使用 LSTM 、GRU、RvNN 能够从谣言传播中学习顺序特征，忽略了谣言分散的影响。有使用 CNN 获得谣言的传播结构信息，但是该类基于CNN 的方法只注意到了局部邻居的特征，忽略了全局的特征信息。传统的GCN 可以认为是无向图GCN ，如 Figure 1(a) 所示，显然对于谣言检测这种带顺序的任务是不可行的。

　　本文提出一种新的双向GCN（BiGCN），它可以同时操作 both top-down 和 bottom-up 的谣言传播。该方法通过两部分得到了 propagation 和dispersion 的特征，Top-Down graph convolutional Networks (TD-GCN) 【Figure 1(b)】和 Bottom-Up graph convolutional Networks (BU-GCN) 【Figure 1(c)】。

　　本文贡献：

- 使用 GCN 做谣言检测；
- 提出 Bi-GCN 模型，该模型不仅考虑了谣言从上到下沿关系链传播的因果特征，而且还通过自下而上的收集从社区内的谣言分散中获得了结构特征；
- 将源帖子的特征与每个 GCN 层上的其他帖子连接起来，以全面利用来自根特征的信息，并在谣言检测中取得优异的性能；

3 Related Work

　　主要方法分类：

- 基于手工特征的谣言检测方法——严重依赖手工特征；
- 基于高阶特征的深度学习方法——（当前）对于传播和扩散效果不如GCN 好；

　　本文主要采用 GCN 获得全局结构信息，因为GCN 对于 graph 和 tree 结构的信息捕获较好。

4 Preliminaries

　　谣言检测数据集 $C=\left\{c_{1}, c_{2}, \ldots, c_{m}\right\}$：

- $c_{i} $ 代表着第 $i$ 个事件；
- $m$ 代表着事件数；

　　对于第 $i$ 个谣言事件 $c_{i}= \left\{r_{i}, w_{1}^{i}, w_{2}^{i}, \ldots, w_{n_{i}-1}^{i}, G_{i}\right\}$：

- $n_{i}$ 代表着 $c_{i}$ 中的帖子数；
- $r_{i}$ 代表源贴，即根节点【root node】；
- $w_{j}^{i}$ 代表 $r_{i}$ 的第 $j$ 个转发贴；
- $G_{i}$ 代表这源帖和转发贴之间的图结构；

　　对于 $G_{i}$，可以表达为 $\left\langle V_{i}, E_{i}\right\rangle$：

- $r_{i}$ 代表这根节点；
- $V_{i}=\left\{r_{i}, w_{1}^{i}, \ldots, w_{n_{i}-1}^{i}\right\}$ ；
- $E_{i}=\left\{e_{s t}^{i} \mid s, t=0, \ldots, n_{i}-1\right\}$ 代表了从回复的帖子到转发的帖子或回复的帖子的一组边，如 Figure 1(b) 所示。如果 $w_{2}^{i}$ 是 $w_{1}^{i}$ 的回复帖，那么将有一个有向边 $w_{1}^{i} \rightarrow w_{2}^{i}$ ，即 $e_{12}^{i}$。如果 $w_{1}^{i}$ 是 $r_{i}$ 的回复帖，那么有 $e_{01}^{i}$。
- $G_{i}$ 的邻接矩阵 $\mathbf{A}_{i} \in\{0,1\}^{n_{i} \times n_{i}}$ 可以定义为：

　　　　　　$a_{t s}^{i}=\left\{\begin{array}{ll}1, & \text { if } e_{s t}^{i} \in E_{i} \\0, & \text { otherwise }\end{array}\right.$

　　定义 $\mathbf{X}_{i}=\left[\mathbf{x}_{0}^{i \top}, \mathbf{x}_{1}^{i \top}, \ldots, \mathbf{x}_{n_{i}-1}^{i \top}\right]^{\top}$ 作为帖子 $c_{i}$ 的特征矩阵。其中，$\mathbf{x}_{j}^{i}$ 代表 $w_{j}^{i}$ 的特征向量，$\mathbf{x}_{0}^{i}$ 代表根节点 $r_{i}$ 的特征。

　　给定该数据集，谣言检测的目标是学习一个分类器：

　　　　$f: C \rightarrow Y$

　　其中，$C$ 和 $Y$ 分别为事件集和标签集，根据该事件中相关帖子构建的文本内容、用户信息和传播结构来预测一个事件的标签。

4.1 Graph Convolutional Networks

　　消息传递：

　　　　$\mathbf{H}_{k}=M\left(\mathbf{A}, \mathbf{H}_{k-1} ; \boldsymbol{W}_{k-1}\right) \quad\quad\quad(1)$

　　GCN 公式：

　　　　$\mathbf{H}_{k}=M\left(\mathbf{A}, \mathbf{H}_{k-1} ; \boldsymbol{W}_{k-1}\right)=\sigma\left(\hat{\mathbf{A}} \mathbf{H}_{k-1} \boldsymbol{W}_{k-1}\right) \quad\quad\quad(2)$

　　其中，$\hat{\mathbf{A}}=\tilde{\mathbf{D}}^{-\frac{1}{2}} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-\frac{1}{2}}$，$\tilde{\mathbf{A}}=\mathbf{A}+\mathbf{I}_{N}$、$\tilde{\mathbf{D}}_{i i}=\Sigma_{j} \tilde{\mathbf{A}}_{i j}$。

4.2 DropEdge

　　为避免过拟合问题，提出的 DropEdge。

　　形式上，假设图 $A$ 中的边总数为 $N_{e}$，丢弃率为 $p$ ，则 DropEdge $\boldsymbol{A}^{\prime}$ 后的邻接矩阵计算如下：

　　　　$\mathbf{A}^{\prime}=\mathbf{A}-\mathbf{A}_{d r o p}$

　　其中，$\mathbf{A}_{\text {drop }}$ 是使用从原始边集随机抽样的新 $N_{e} \times p$ 边构造的矩阵。

5 Bi-GCN Rumor Detection Model

　　Bi-GCN 的核心思想是从谣言传播和谣言弥散中学习合适的高级表示。

　　如 Figure 2 所示，我们使用 Bi-GCN 分 $4$ 个步骤详细说明了谣言检测过程。

5.1 Construct Propagation and Dispersion Graphs

　　基于转发和回复关系，构建一个谣言事件 $c_{i}$ 的传播结构 $\langle V, E\rangle$。然后，设 $\mathbf{A} \in \mathbb{R}^{n_{i} \times n_{i}}$ 和 $X$ 分别为其对应的邻接矩阵和基于谣言传播树的 $c_{i}$ 的特征矩阵。$A$ 只包含从 upper nodes 到 lower nodes 的边，如 Figure 1 (b) 所示。在每个训练阶段，通过 $\text{Eq.3}$ 删除边的 $p$ 个百分比形成 $\mathbf{A}^{\prime}$，避免了惩罚性的过拟合问题。

　　基于 $\mathbf{A}^{\prime}$ 和 $X$，可以建立 Bi-GCN 模型。 Bi-GCN 由两个组件组成：

- a Top-Down Graph Convolutional Network (TDGCN)
- a Bottom-Up Graph Convolutional Network （BUGCN）

　　两个部分的邻接矩阵是不同的。对于TD-GCN，邻接矩阵表示为 $\mathbf{A}^{T D}=\mathbf{A}^{\prime}$。同时，对于 BU-GCN，邻接矩阵为 $\mathbf{A}^{T D}=\mathbf{A}^{\prime}$。TD-GCN 和 BU-GCN 采用相同的特征矩阵 $\mathbf{X}$。

5.2 Calculate the High-level Node Representations

　　经过 DropEdge 操作后，通过 TD-GCN 和 BU-GCN 分别得到了自顶向下的传播特征和自底向上的传播特征。

　　两层的 TD-GCN 如下：

　　　　$\mathbf{H}_{1}^{T D}=\sigma\left(\hat{\mathbf{A}}^{T D} \mathbf{X} \boldsymbol{W}_{0}^{T D}\right) \quad\quad\quad(4)$

　　　　$\mathbf{H}_{2}^{T D}=\sigma\left(\hat{\mathbf{A}}^{T D} \mathbf{H}_{1}^{T D} \boldsymbol{W}_{1}^{T D}\right) \quad\quad\quad(5)$

　　其中，$\mathbf{H}_{1}^{T D} \in \mathbb{R}^{n \times v_{1}}$ 和 $\mathbf{H}_{2}^{T D} \in \mathbb{R}^{n \times v_{2}}$ 代表着 TDGCN 的 hidden features，$\boldsymbol{W}_{0}^{T D} \in \mathbb{R}^{d \times v_{1}}$ 和 $\boldsymbol{W}_{1}^{T D} \in \mathbb{R}^{v_{1} \times v_{2}} $ 代表着 TDGCN 的参数矩阵。

　　在训练的时候，DropEdge 在 GCL（GCN Layers）层中使用。

5.3 Root Feature Enhancement

　　一个谣言事件的来源帖子总是有丰富的信息来产生广泛的影响。有必要更好地利用来自源帖子的信息，并从节点和源帖子之间的关系中学习更准确的节点表示。

　　因此，除了TD-GCN和BU-GCN的隐藏特征外，还提出一种根特征增强操作来提高谣言检测的性能，如 Figure 2 所示。具体来说，对于第 $k$ 层的 GCL 的 TD-GCN，将每个节点的隐藏特征向量与 $(k−1)$ 层的 GCL 中根节点的隐藏特征向量连接起来，构造一个新的特征矩阵：

　　　　$\tilde{\mathbf{H}}_{k}^{T D}=\operatorname{concat}\left(\mathbf{H}_{k}^{T D},\left(\mathbf{H}_{k-1}^{T D}\right)^{\text {root }}\right) \quad\quad\quad(6)$

　　并有 $\mathbf{H}_{0}^{T D}=\mathbf{X}$，且有：
　　　　$\tilde{\mathbf{H}}_{1}^{T D}= concat \left(\mathbf{H}_{1}^{T D}, \mathbf{X}^{\text {root }}\right)$
　　　　$\mathbf{H}_{2}^{T D}=\sigma\left(\hat{\mathbf{A}}^{T D} \tilde{\mathbf{H}}_{1}^{T D} \boldsymbol{W}_{1}^{T D}\right) \quad\quad\quad(7)$
　　　　$\tilde{\mathbf{H}}_{2}^{T D}=\operatorname{concat}\left(\mathbf{H}_{2}^{T D},\left(\mathbf{H}_{1}^{T D}\right)^{r o o t}\right) \quad\quad\quad(8)$

　　同理，BU-GCN 类似。

5.4 Representations of Propagation and Dispersion for Rumor Classification

　　传播和分散的表示分别是来自 TD-GCN 和 BU-GCN 的节点表示的聚合。在这里，使用平均池操作符来聚合来自这两组节点表示的信息。它被表述为

　　　　$\mathbf{S}^{T D}=\operatorname{MEAN}\left(\tilde{\mathbf{H}}_{2}^{T D}\right)\quad\quad\quad(9)$
　　　　$\mathbf{S}^{B U}=\operatorname{MEAN}\left(\tilde{\mathbf{H}}_{2}^{B U}\right) \quad\quad\quad(10)$

　　然后，将 propagation 表示和 dispersion 表示连接起来，将信息合并为

　　　　$\mathbf{S}=\operatorname{concat}\left(\mathbf{S}^{T D}, \mathbf{S}^{B U}\right) \quad\quad\quad(11)$

　　最后，通过几个完整的连接层和一个 softmax 层来计算事件 $\hat{\mathbf{y}}$ 的标签：

　　　　$\hat{\mathbf{y}}=\operatorname{Softmax}(F C(\mathbf{S})) \quad\quad\quad(12)$

　　其中，$\hat{\mathbf{y}} \in \mathbb{R}^{1 \times C}$ 是用于预测事件标签的所有类的概率向量。

6 Experiments

Datasets

　　nodes refer to users, edges represent retweet or response relationships, and features are the extracted top-5000 words in terms of the TF-IDF values.

谣言检测结果

Weibo dataset 谣言检测结果：

Twitter15 and Twitter16 谣言检测结果：

Ablation Study

Early Rumor Detection

7 Conclusions

　　在本文中，我们提出了一种基于GCN的社交媒体上的谣言检测模型，称为Bi-GCN。其固有的GCN模型使该方法具有处理图/树结构和学习更高层次表示的能力，更有利于谣言检测。此外，我们还通过连接GCN的每个GCL后的源柱的特征来提高模型的有效性。同时，我们构建了Bi-GCN的几种变体来建模传播模式，即UD-GCN、TD-GCN和BU-GCN。在三个真实数据集上的实验结果表明，基于GCN的方法在准确性和效率方面都有非常大的利润率，优于最先进的基线。特别是，BiGCN模型既考虑了谣言从上到下传播模式传播的因果特征，以及通过自下而上聚集在社区内谣言分散的结构特征，从而获得了最佳的性能。

posted @ 2022-09-13 20:56 多发Paper哈阅读(1262) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Blair