伏羲-复旦
https://mp.weixin.qq.com/s/6mr_2aUK2eU3RYCyWpa7lg
这篇恐怕要按照SwinRNN SwinRDM FUXI这个顺序来梳理
摘要:过去的AI方法在ECWMF的HRES对比中,10天就比较好了,但是15天还是不行。之前研究发现长期预测中的误差累积很严重,这方面也做了不少努力,但是这里认为单一模型的能力无法满足长短各种时间的要求。所以提出伏羲。基于纬度加权的RMSE和ACC表明伏羲在十五天内雨ECMWF EM有竞争力,是第一个做到这一点的ML模型。
要点:降低误差积累现象,达成了15天有效预测
数据:ERA5
方法:
长期预测:伏羲是自回归模型,具体为使用过去两步预测未来一步,时间步长6小时,如果需要预测十五天,就需要六十个步长
伏羲提出了伏羲-short,伏羲-meduim,伏羲-long,分别对应于二十步长以内,二十到四十,四十到六十三个时间段的预测任务。它没有采用像华为盘古一样每个模型用于预报不同的步长,而是用于不同的lead time,三个模型步长都是六小时
结构:用了一个U-transformer上下采样对称结构
embedding:输入维度为2*70*721*1440,两个时间步长(因为模型是两个步长预测未来一个步长所以输入)*变量数*H*W,然后embedding为C*180*360,可见其在时、空方向上均有embedding压缩长度,减少数据冗余度
embedding用的是三维卷积而非MLP
U-transformer:这里提到Swin V1中有很多问题(包括训练不稳定),在V2中做出了很多改进,所以该工作沿用了V2(细节计算上修改了挺多),直接重复了48个swinV2块
U型上下采样使用的都是卷积操作,BN换GN,激活函数换成了sigmoid加权的线性单元(SiLU)
训练:
损失函数为纬度加权的L1
硬件为8个A100,40000迭代大约30小时
预训练阶段先进行监督的预测未来一个步长,然后在这个基础模型上微调为short,再在short上微调为meduim,以此类推到Long。这么设置是合理的,因为作者认为在不同的leadtime可能需要不同的参数,但与上一步的参数更为接近,所以在上一步基础上微调