《Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud Detection》阅读笔记

Alleviating the Inconsistency Problem of Applying Graph Neural Network to Fraud Detection

作者:Yingtong Dou, Zhiwei Liu, Li Sun, Yutong Deng, Hao Peng, Philip S. Yu

Department of Computer Science, University of Illinois at Chicago School of Computer Science, Beijing University of Posts and Telecommunications Beijing Advanced Innovation Center for Big Data and Brain Computing, Beihang University

Abstract

提出一种模型 \(Graph-Consis\),用于处理欺骗则引起的不一致问题

  • 对于上下文不一致问题:结合上下文节点的特征
  • 对于特征不一致问题:设计一个一致性分数来过滤不一致的邻居
  • 对于关系不一致问题:学习关系注意力权重

创新点/贡献/优势:

  • 第一篇去解决在GNN模型中的不一致问题
  • 从经验上分析了将GNN模型应用于欺诈检测任务的三个不一致问题
  • 提出了Graph-Consis来解决三个不一致的问题,这些问题结合了上下文嵌入,邻域信息度量和关系注意力

Introduction

image-20200906094506585

Context inconsistency

聪明的欺诈者可以将自己与伪造的常规实体联系起来, 同时,欺诈者的数量远少于常规实体。

Feature inconsistency

假设有来自同一用户的两条评论,但是关于不同类别的产品,这两条评论具有共同点,因为它们共享同一用户。 但是,由于它们与不同的产品相关联,因此它们的评论内容(功能)彼此相距遥远。

Relation inconsistency

由于实体与多种类型的关系有关,因此平等对待所有关系会导致不一致性问题。 例如,同一用户或同一产品可能同时关联了两个评论,这两个评论分别是共同用户关系和共同产品关系。假设一个评论是可疑的,则另一个评论如果通过“公共用户关联”来关联,则应具有较高的可疑性。

Model

image-20200906095420057

image-20200906100054800

拼接上一个可训练的上下文特征 \(c_v\)

image-20200906100231648

以差值的 \(l^2-norm\) 作为一致性分数

计算出每个点被选取的概率

接下来对于每种关系进行计算

image-20200906100629121

使用 \(t_{r_q}\) 作为可训练的关系向量,其余部分和GAT相似

最后就是利用上面求出的注意力系数,对于邻居信息进行聚合

Experiments

数据集

image-20200906101350328

Yelp数据集包含由Yelp过滤和推荐的酒店和餐厅评论。

R-U-R: it connects reviews posted by the same user

R-S-R: it connects reviews under the same product with the same star rating (1-5 stars)

R-T-R: it connects two reviews under the same product posted in the same month

\(γ^{(f)}\) 表示特征不一致的程度:image-20200906101513749

\(γ^{(c)}\) 表示上下文不一致的程度:image-20200906101550651

image-20200906101950992

可以看到,在这两个指标上,Graph-Consis在训练数据的80%和60%都优于其他模型,这表明我们可以缓解不一致问题。 与其他基于GNN的模型相比,LR在AUC上性能稳定且更好。 它表明节点功能很有用,但是GNN中的聚合器在识别欺诈者时会破坏分类器。 该观察还证明了不一致问题是至关重要的,在将GNN应用于欺诈检测任务时应予以考虑。

与也学习关系注意的Player2Vec相比,Graph-Consis表现更好。 这表明仅使用关系注意不能减轻特征不一致。 邻居应该按照我们设计的方法进行过滤和采样。

FdGars直接聚合邻居的信息,而GraphSAGE以相等的概率抽样邻居。 两者的性能都比Graph-Consis差,这表明我们的邻居采样技术很有用

Conclusion

在本文中研究了在欺诈检测问题中应用GNN的三个不一致问题。 为了解决这些问题,分别设计了三个模块并提出了Graph-Consis。实验结果表明了Graph-Consis的有效性。 未来的工作包括为每个关系设计一个自适应采样阈值,以最大程度地提高GNN的接收范围。

调查其他欺诈数据集下的不一致问题是未来研究的另一种途径

posted @ 2020-09-06 14:10  C_W_K  阅读(579)  评论(0编辑  收藏  举报