盘古天气大模型

摘要:ERA5数据训练。创新:1. 三维transformer 2. 层级结构的时间聚合算法,能够缓解误差累积

硬件:华为云 192个英伟达 Tesla-V100,100epoch训15天

方法:预训练任务就是预测

和Climax一样,没有采用迭代预测,而是指定Δt,直接进行预测。但是前者使用的是时间编码,让模型来识别需要预测多久的,这里使用不同的lead time使用不同的model,然后使用模型聚合的方式实现指定时间

编解码结构是类似unet,编码下采样一次,解码上采样一次

具体自注意力计算方式只是非常简单的提了一句用了shifted-window方式,然后给了一篇文献,不知道和swin有多相似,但是明确说了自注意力是在窗口内计算的。

这里有一个比较特色的贡献就是改了一下注意力计算中的bias项,提出了一个适合地球特征的B。原始版本应该是不分维度和高度,全图都使用同一套自注意力参数,也就是同一个B,这里提出根据纬度和高度给出不同的B,其本质是多了许多可学习的参数。这里有一个很重要的点,作者说在实际操作中, 并没有发现因为增加了大量的参数而训练困难,反而因为引入了有效的先验知识(不同纬度和高度应该不同对待),模型收敛的更快了。

好像climax还是哪个用的是基于地球特征的损失函数权重,也就是说极地地区密集分布点的位置给少一点权重,赤道地区显然每个点的预测结果更重要,权重更大。

以上两种方式,如果将来做全球的,需要参考

时间聚合:作者发现迭代预测的误差累积无法避免,如果将一次预测的时间步长缩短,那么预测到同样未来时间长度就需要更多的时间步,这样的做法会让累计误差急剧增大。所以不管你预测多远的未来,更多的迭代次数一定会带来更大的误差。反之如果一次预测的时间步长缩短,更少的迭代次数通常能带来更好的结果。所以这里提出了时间聚合算法,分别训练了1/3/6/24小时预测模型,在给定预测时间后,模型自动选择迭代步骤最少的一个组合。说白了就是用支付纸币的组合方案。作者指出时间聚合算法也使得模型更容易训练。

上面说的四种时间长度模型都在192个tesla-V100上训练了16天,但还没有到最优。作者反复提及训练开销太大了,100epoch并没有下降到最优,同时模型的超参也没有调等等

posted @ 2023-06-28 10:50  诸葛村夫CC  阅读(91)  评论(0编辑  收藏  举报