Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer

这是4月刚刚发布在arxiv上的论文,介绍了一种名为“Gradformer”的新型图Transformer,它在自注意力机制中引入了指数衰减掩码。以下是主要创新点:

  1. 指数衰减掩码: Gradformer在其自注意力模块中集成了衰减掩码。该掩码随着图结构中节点之间的距离减小而呈指数递减。这种设计使模型能够在保留远距离信息捕获能力的同时,更专注于本地信息。
  2. 可学习约束: Gradformer为衰减掩码引入了一种可学习的约束,使不同的注意力头可以学习到不同的掩码。这使得注意力头多样化,提高了模型对图中多样结构信息的吸收能力。
  3. 归纳偏差的整合: Gradformer的设计将归纳偏差整合到自注意力机制中,增强了它对图结构化数据的建模能力。与之前仅使用位置编码或注意力偏差的方法相比,这种整合更有效。
  4. 与现有方法的比较: Gradformer在各种数据集上与14种基线模型进行了比较,包括图神经网络(GNN)和图Transformer模型。实验结果表明,Gradformer在图分类和回归等任务中,始终优于这些模型。
  5. 处理深层架构: Gradformer在深层架构中同样有效,随着网络深度的增加,其准确度得以保持甚至增强,这与其他转换器显著下降的准确度形成鲜明对比。

Gradformer通过引入带有可学习约束的指数衰减掩码,为图Transformer提供了一种新的方法,有效地捕捉了图结构中的本地和全局信息。这种设计将其与之前的模型区分开来,并提高了其在各种任务中的表现。

https://avoid.overfit.cn/post/ce4d852480a347ffb41c1eabf8cba71f

posted @   deephub  阅读(47)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
历史上的今天:
2023-05-02 医学图像的深度学习的完整代码示例:使用Pytorch对MRI脑扫描的图像进行分割
2022-05-02 2022年关于损失函数的5篇最新论文推荐
点击右上角即可分享
微信分享提示