GraphMAE:将MAE的方法应用到图中使图的生成式自监督学习超越了对比学习

前几天的文章中我们提到MAE在时间序列的应用,本篇文章介绍的论文已经将MAE的方法应用到图中,这是来自[KDD2022]的论文GraphMAE: Self-supervised Masked Graph Autoencoders

生成学习与对比学习

自监督学习从大量的无监督数据中挖掘出自己需要的的监督信息。与监督学习相比,它使用来自数据集本身的信息来构建伪标签。而在对比学习[9]方面,自监督学习作为监督学习的补充具有很大的潜力。

自MoCo和SimCLR引入以来,对比学习在图自监督学习领域占据主导地位,其在节点分类和图分类等任务上的表现远远超过生成式自监督学习方法。但是对比学习的成功往往取决于下面的两个因素:

  • 高质量的数据扩充。GraphCL[5]探索了几种数据增强方法的有效性,如掩蔽属性、子图采样和随机添加和删除边。但是通过研究发现有效的图数据增强往往依赖于领域知识;例如,随机添加和删除边缘对社交网络中的训练是有利的,但它会会对分子图产生负面影响。所以到目前为止,在图对比学习中还没有普遍有效的数据增强方法。
  • 复杂的策略来稳定训练。对比方法通过通用的训练技巧避免模型陷入繁琐的解决方案。GRACE[8]、DGI[7]和GraphCL[5]等方法在训练中使用负采样,而BGRL[6]利用了非对称网络结构和指数移动平均策略。

而生成式自监督学习可以避免上述依赖关系。生成式自监督学习能够重构数据本身的特征和信息。在自然语言处理(NLP)中,BERT[3]旨在恢复遮蔽词;在CV (Computer Vision)中,MAE[2]恢复图像的像素点(块)。

对于图,GAE (Graph Autoencoder)重建图的结构信息或节点特征。现有的图数据动编码器大多着眼于链接预测和图数据聚类目标,因此通常会选择重构图数据的结构信息,即邻接矩阵a。所以近年来图数据自编码器的进展远远落后于对比学习,在分类等任务上的表现并不令人满意。节点分类、图分类等任务的SOTA都是基于对比学习的方法。

与以前的图形自编码器不同,GraphMAE通过简单的重建被遮蔽的损坏节点特征,使图自编码器超越对比学习

GraphMAE的关键设计在于以下几个方面:

  • 基于遮蔽的节点特征重构。现有的图数据自编码器通常以边缘作为重构目标,但其在下游分类任务中的表现通常较差。
  • 以GNN为解码器进行以重建过程。现有的图自编码器通常选择MLP作为解码器,由于大多数图形节点特征是连续的向量,MLP的能力不足以从编码结果重建节点特征。
  • 用缩放后的余弦误差作为损失函数来代替MSE。

在21个不同大小的数据集上,GraphMAE在节点分类、图分类和分子性质预测3个任务上的性能进行了评估。实验结果表明,GraphMAE在不依赖数据增强等任何技术的情况下,取得了与当前最优对比学习方法相当甚至超过的结果。

这表明生成式自监督学习仍然有很大的潜力,GraphMAE有助于我们在图生成学习方面的进一步探索。

GraphMAE是如何工作的

使用[MASK]重构节点特征

最近关于图自编码器的许多工作都倾向于重建结构和节点特征。这些努力并没有获得像在NLP, CV中所取得的重大进展。在[1]中,通过提取已经训练过的GNN中的信息,可以使MLP在节点分类的性能方面与GNN相媲美。这表明了节点特性在任务(如分类)中的重要性。因此,GraphMAE使用且仅使用重构的特征作为自监督学习的目标,分类任务的实验也表明,重构的节点特征可以提供有效的信息。

完整文章:

https://avoid.overfit.cn/post/c4b9e590e7464b059fb6d756b3f794e2

posted @ 2022-07-20 10:50  deephub  阅读(209)  评论(0编辑  收藏  举报