《Enhancing Graph Neural Network-based Fraud Detectors against Camouflaged Fraudsters》阅读笔记

Enhancing Graph Neural Network-based Fraud Detectors against Camouflaged Fraudsters

作者:Yingtong Dou, Zhiwei Liu, Li Sun, Yutong Deng, Hao Peng, Philip S. Yu

Department of Computer Science, University of Illinois at Chicago School of Computer Science, Beijing University of Posts and Telecommunications Beijing Advanced Innovation Center for Big Data and Brain Computing, Beihang University

Abstract

提出一种模型 \(CAmouflages-REsistant GNN(CARE-GNN)\),用于基于GNN的欺骗检测,特别是对抗使用伪装的欺骗者。

  • 标签感知去找到信息丰富的邻居节点
  • 利用强化学习去选择最佳邻居数量
  • 将不同关系的选定邻居聚合在一起

创新点/贡献/优势:

  • 适应性:CARE-GNN给定任意的多重关系图,自适应地选择最佳邻居进行聚合
  • 高效性:CARE-GNN具有较高的计算效率,无需attention和深入的强化学习
  • 灵活性:可以将许多其他神经模块和外部知识插入到CARE-GNN

Introduction

特征伪装:加入特殊字符

关系伪装:欺骗者连接较多的良性用户

image-20200905091200234

对于特征伪装,提出了一种标签感知的相似度度量,以基于节点特征找到最相似的邻居 。

对于关系伪装,设计了一个相似性感知的邻居选择器来选择中心节点的相似邻居 关系中,此外,我们利用强化学习(RL)以及GNN训练过程来自适应地找到最佳邻居选择阈值。

我们利用RL学习的邻居过滤阈值来制定区域感知邻居聚合器,该聚合器结合了来自不同关系的邻域信息并获得 最终的中心节点表示形式

Model

总体的结构如下:

image-20200903104725433

对于每一层都有邻居选择,关系感知邻居聚合器。

  • 邻居选择包括:标签感知相似度度量、相似度感知邻居选择器。
  • 关系感知邻居聚合器:内部关系聚合、相互关系聚合

标签感知相似度度量:

image-20200906001908035

对于两个邻接节点,将上一层的特征经过MLP后在经过一个激活函数,将两个点做差

image-20200906002016171

定义相似度为S

image-20200906002043050

定义损失函数,来调整MLP上的w

相似度感知邻居选择器:

对于每种关系的联系,去其S值,也就是相似度最高的top-p,使用强化学习来学习最佳的阈值 \(p_r^l\) 来筛选邻居节点

内部关系聚合:

image-20200906002448125

AGG为任意聚合函数

相互关系聚合:

image-20200906002505399

聚合来自不同关系的邻居信息。 先前的方法采用注意力机制,以在从不同关系聚合信息时学习关系权重。 但是,假设我们在每个关系下选择了最相似的邻居,则注意系数在不同关系之间应相似。 因此,为了节省计算成本,同时保留相关重要性信息,我们直接将强化学习流程获得的最佳过滤阈值 \(p_r^{(l)}\) 作为权重

定义损失函数

image-20200906002801648

image-20200906002809060

Experiments

数据集

image-20200903110108535

Yelp数据集包含由Yelp过滤和推荐的酒店和餐厅评论。 Amazon数据集包括“乐器”类别下的产品评论

R-U-R: it connects reviews posted by the same user

R-S-R: it connects reviews under the same product with the same star rating (1-5 stars)

R-T-R: it connects two reviews under the same product posted in the same month

U-P-U: it connects users reviewing at least one same product

U-S-V: it connects users having at least one same star rating within one week

U-V-U: it connects users with top 5% mutual review text similarities (measured by TF-IDF) among all users.

可以发现标签还是很重要的

实验结果

image-20200903110527106

( CARE-Att, CARE-Weight, and CARE-Mean,and they differ from each other in Attention, Weight, and Mean inter-relation aggregator respectively)​

Graph-Consis也有较好的表现,因为其也有对于邻居节点的筛选的过程

多种聚合方式的比较

image-20200905235916462

第4列图 显示了对于两种测试集的测试性能。 对于Yelp数据集,GNN具有比相似性度量更好的AUC和Recall,这表明利用结构信息有利于模型对欺诈和良性实体进行分类。对于亚马逊来说,GNN的性能和相似性度量可以相互媲美。 这是因为输入功能提供了足够的信息来区分欺诈者

image-20200906000057977

多层的模型,适用于稀疏图

Conclusion

本文研究了欺诈者的伪装行为及其对基于GNN的欺诈检测器的对抗作用。 为了增强针对欺诈者的特征伪装和关系伪装的基于GNN的欺诈检测器,我们提出了一种使用强化学习的标签感知相似度度量和相似感知邻居选择器。 连同两个神经模块,我们进一步提出了一个关系感知聚合器,以最大化计算的实用性。

posted @ 2020-09-06 14:12  C_W_K  阅读(913)  评论(3编辑  收藏  举报