Loading [MathJax]/jax/output/CommonHTML/jax.js

论文信息

论文标题:Sub-graph Contrast for Scalable Self-Supervised Graph Representation Learning
论文作者:Yizhu Jiao, Yun Xiong, Jiawei Zhang, Yao Zhang, Tianqi Zhang, Yangyong Zhu
论文来源:2020 ICDM
论文地址:download 
论文代码:download

1 Introduction 

  创新点:提出一种新的子图对比度自监督表示学习方法,利用中心节点与其采样子图之间的强相关性来捕获区域结构信息。

  与之前典型方法对比:

  

2 Method

2.1 Subgraph-Based Self-Supervised Representation Learning

  对于中心节点 i,设计了一个子图采样器 S,从原始图中提取其上下文子图 XiRN×F。上下文子图为学习节点 i 的表示提供了区域结构信息。其中,XiRN×F 表示第  i  个上下文子图的节点特征矩阵。Ai 表示节点 i 邻居的邻接矩阵。N 表示上下文子图的大小。

  目标是学习一个上下文子图的编码器  E:RN×F×RN×NRN×F ,用于获取上下文图中的节点表示。

  注意:

    • 子图采样器 S :作为一种数据增强的手段,需要计算邻居重要性得分,并对重要节点进行采样,从而组成一个上下文子图,为中心节点提供领域结构信息。  
    • 子图编码器 E:需要计算中心节点 i 的表示,还要根据子图信息生成子图表示 si  

2.2  Subgraph Sampling Based Data Augmentation

  重要性得分矩阵 S 可以记为:

    S=α(I(1α)¯A)(1)

  其中

    • ¯A=AD1
    • S(i) 为节点 i 的重要度得分向量,表示它与其他节点的相关性;
    • α[0,1] 是一个参数,它总是被设置为 0.15

  对于一个特定的节点 i ,子图采样器 S 选择 topk 重要的邻居,用得分矩阵 S 组成一个子图。所选节点的指数可以记为

    idx= top_rank (S(i,:),k)

  其中, top_rank  是返回顶部 k 值的索引的函数,k 表示上下文图的大小。

  然后,可以使用上述产生的 ids 生成子图邻接矩阵 Ai、特征矩阵X

    Xi=Xidx,:,Ai=Aidx,idx

  到目前为止可以生成上下文子图 Gi=(Xi,Ai)S(X,A)

2.3  Encoding Subgraph For Representations

  给定中心节点 i 的上下文子图 Gi=(Xi,Ai),编码器 E:RN×F×RN×NRN×F 对其进行编码,得到潜在表示矩阵 Hi 表示为

    Hi=E(Xi,Ai)

    hi=C(Hi)

  其中,C 表示选择中心节点表示的操作。

  我们利用一个读出函数 R:RN×FRF,并使用它将获得的节点表示总结为子图级表示 si,记为

    si=R(Hi)

  其实就是 R(H)=σ(1NNi=1hi)

2.4 Contrastive Learning via Central Node and Context Subgraph

  整体框架如下所示:

   

  对于捕获上下文子图中的区域信息的节点表示 hi,我们将上下文子图表示 si 视为正样本。另一方面,对于一组子图表示,我们使用一个 Corruption functions P (其实就是 shuffle 操作)来破坏它们以生成负样本,记为

    {˜s1,˜s2,˜sM}P({s1,s2,,sm})

  其中,m 是表示集的大小。

  采用三联体损失函数(triplet loss):

    L=1MMi=1E(X,A)(max(σ(hisi)σ(hi˜si)+ϵ,0))(2)

  算法流程如下:

   

3 Experiment

数据集

  

实验细节

不同编码器对比

  对于 Cora、Citeseer、Pubmed、PPI 采用带跳跃连接的一层的 GCN 编码器:

    E(X,A)=σ(ˆD12ˆAˆD12XW+ˆAWskip)

  其中:$\mathbf{W}_{s k i p}$ 是跳跃连接的可学习投影矩

  对于 Reddit、Flickr 采用两层的 GCN 编码器:

    GCN(X,A)=σ(ˆD12ˆAˆD12XW)E(X,A)=GCN(GCN(X,A),A)

  对比结果:

   

不同的目标函数:

   

  对比结果:

  

子图距离对比

  

训练时间和内存成本

  

子图大小分析

  

4 Conclusion

  在本文中,我们提出了一种新的可扩展的自监督图表示,通过子图对比,子V.。它利用中心节点与其区域子图之间的强相关性进行模型优化。基于采样子图实例,子g-con在监督要求较弱、模型学习可扩展性和并行化方面具有显著的性能优势。通过对多个基准数据集的实证评估,我们证明了与有监督和无监督的强基线相比,SUBG-CON的有效性和效率。特别地,它表明,编码器可以训练良好的当前流行的图形数据集与少量的区域信息。这表明现有的方法可能仍然缺乏捕获高阶信息的能力,或者我们现有的图数据集只需要驱虫信息才能获得良好的性能。我们希望我们的工作能够激发更多对图结构的研究,以探索上述问题。

 

posted @   别关注我了,私信我吧  阅读(725)  评论(0编辑  收藏  举报
Live2D
点击右上角即可分享
微信分享提示