Earthformer(2022.7)
摘要:earthformer是基于一个时空注意力块,称为Cuboid Attention。将数据分解为多个立方体块(cuboid),然后在方块上计算自注意力,有一个全局向量和所有方块连接和汇总。
硬件:这个工作是在一块V100上完成的,开销很小。因为实验是在MNIST上做的,当然也做了降雨和ENSO,但总归不是那种大公司出的可以业务化的大模型。
intro:作者认为(当然有可能是为了圆而圆)CNN和RNN的归纳偏置在复杂的自然系统中是否合适是不清楚的
这里提到目前SOTA降雨预报模型是NOAA用的高分辨率集合预报(HREF),这种基于模拟的系统的缺点是无法利用和整合观测数据。但我看后面实验中并没有对比HREF
不同的立方体分解可以捕捉到不同类型的相关性,通过叠加具有不同超参的方块注意力层,我们可以将之前vision中的各种注意力纳入考虑,也可以得到一些全新的注意力形式。为了让方块之间能够沟通,提出了全局向量。
实验得到的结论:1. axial注意力是高效有效的(axial attention是先前工作) 2. 全局向量总能提供更好的效果,并不增加计算 3. 编解码器中添加hierarchy(分层?)可以提高性能
方法:先分解为方块,他这一步分解不像其他固定patch大小直接分就行,它这里列为单独的一节,认为方块大小、分解策略、滑动距离都是可调节超参。这种灵活性可以用NAS搜,但是是future work了
模型框架看起来像一个Unet的结构,比较适合密集预测任务
自注意力是在局部的方块内计算的(和swin transformer一样,注意,这篇文章的方块分解策略中也有shift这一项,显然是参考了swin的),全局信息引入了一个全局向量G,G参与所有方块注意力的计算。
这篇工作有swin,有层级unet结构,有全局向量,在方块内部计算注意力,基本上把目前能想到的最直接的方式都集成到一块了。
数据:除了MNIST以及变体以外,自然数据在SEVIR(SEVIR: A storm event imagery dataset for deep learning applications in radar and satellite meteorology)和ICAR-ENSO(ICAR是南信大的气象xx研究院)数据集上进行对比。这两个数据都是针对深度学习的