Transformer 能代替图神经网络吗?

当Transformer模型发布时，它彻底革新了机器翻译领域。虽然最初是为特定任务设计的，但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准，甚至用于它最初设计之外的数据（如图像和其他序列数据）。

然后人们也开始优化和寻找替代方案，主要是为了减少计算成本（自注意力机制的二次方成本）。关于哪种架构在计算成本方面更优的讨论一直在进行，但是对于Transformer来说，它的成功之处在于模型能够展示出强大的推理能力。

如何分析神经网络的推理能力？

最常用的方法之一是研究利用架构内部表示能执行哪些算法。有一个完整的领域致力于这项任务：Neural algorithmic reasoning。Transformer是否能进行泛化，或者通过扩展是否能解决一些问题，这些问题仍然悬而未决，并且这方面的研究也十分活跃。

有些人认为Transformer具有普适推理能力，而其他人认为它是引领我们走向人工通用智能的架构（假设我们能够足够扩展它），但是目前看Transformer能够在不同的领域，NLP，时间序列，甚至CV中取得良好的成绩但是测试其极限也非常重要。我们不仅需要测试它的极限，还需要与其他架构进行比较，并在未来建立基准。

在最近的一项研究中，研究人员决定深入研究一个特定的领域:图神经网络。

今天介绍的这篇论文叫“Understanding Transformer Reasoning Capabilities via Graph Algorithms”

这可能听起来有些奇怪，但近来Transformer（以及大型语言模型）与图（Graphs）之间的关系越来越密切。首先，自注意力可以被视为一种图的形式。其次，图（尤其是知识图谱）可以用来扩展Transformer。第三，图是复杂推理的理想抽象。思维链条和其他技术也可以被视为图的一种抽象。另外许多图问题可以通过简单的架构解决，而其他问题则需要复杂的推理和先进的图神经网络（GNNs）。

https://avoid.overfit.cn/post/f5a077ed4ec84d5fae0285bc791d452f

posted @ 2024-06-29 10:44 deephub 阅读(67) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

Transformer 能代替图神经网络吗?

如何分析神经网络的推理能力？

公告