Fake News Detection on Social Media Using Geometric Deep Learning
[1] Monti F., Frasca F., Eynard D., Mannion D. and Bronstein M. M. Fake news detection on social media using geometric deep learning. In International Conference on Learning Representations (ICLR, 2019)
[2] Vosoughi S., Roy D. and Aral S. The spread of true and false news online. Science, vol. 359, pp. 1146-1151, 2018.
概
利用对传播模型的分析进行假新闻的检测.
主要内容
基本的定义
本文的新闻是广义上的新闻, 将那些发表宣言和主张的推特均视作是新闻(或更贴切的, 传闻).
- 一些fact-checking组织为一些传闻提供了标签: False, Mostly False, Mixture, Mostly True 和 True, 并只保留 False, True 部分 ([2] 将 False 和 Mostly False 打包为 False, 而将 True, Mostly True 打包为 True, 并舍弃 Mixture).
- 同时这些传闻的reference中附带一些网页链接(URLs), 删选出那些在推特中出现过的URLs;
- 通过训练过的人给这些URLs标注:
- 那些承认真实传闻的URLs将被标注为True;
- 那些否认真实传闻的URLs将被标注为False;
- 为每条URL构建 cascades, 同时收集链路上的用户和推特信息.
什么是cascade?
对于一条URL而言, 从一个直接引用该URL开始, 其后的所有retweets (当然也包括retweets的retweets ...)构成的树称为一 cascade. 显然, 有可能有多个起点, 故通常也有不同cascades. 和[2]不同的是, [1]只收集那些经过验证的推特, 同时会收集用户信息, 和其评论的推特信息.
特征
对于 URL \(u\) 而言, 假设涉及它的集合为\(\{t_u^1, t_u^2, \cdots, t_u^N\}\), 将每一个推特和背后的用户视作一个顶点, 然后用户间有follow关系的(关注?)就认为二者存在一条边, 构成了图\(G_u\).
对于每个顶点, 将用户信息 (简介, 自我介绍, 喜好, 职业等)和推特内容作为特征.
作者还利用News diffusion paths(描述了消息传播的路径)为边提供特征. 简而言之, 认为\(t_{u}^n\)是从\(t_u^m\)从得到信息的, 如果(假设\(t_u^m\)发生在\(t_u^n\)之前)
- 用户\(a_u^n\)follow(关注?)了用户\(a_{u}^m\);
- 用户\(a_u^n\)所follow的用户中无人转发此信息, 而用户\(a_u^m\)是在转发此信息中最活跃和受人关注的.
利用所构成的图并通过GCN来检测.