ClimaX

摘要:当前大多数模型使用整理好的同质的数据,也就是说针对特定数据特定下游任务的。ClimaX使用跨越不同变量、空间位置、物理基础的异构数据,也就是说是一个经过自监督预训练(CMIP6)的大模型。

intro:

第一个问题:训练大模型要使用非常大的数据集进行与训练,NLP和CV使用了互联网规模的数据进行训练。但是对于climax来说,什么才算是互联网规模的并不清楚,观测数据由于自然规律的限制,每天只是线性增长。该研究第一个提议就是使用模式数据,CMIP6对climax进行预训练。

第二个问题:使用什么模型架构能够应对自然数据的异构,不光是各种类型的变量,有些数据的时空覆盖范围甚至是不规则的,答案就是vit。之前工作都是将不同变量作为不同channel,本工作直接作为不同模态,灵活训练的同时也能应对不规则的数据集。但是这样做会增加序列长度带来的副作用,我们提出了一个交叉注意式的通道聚合来解决该问题。

第三个问题:需要一个预训练任务,我们提出了随机预测,预测任意变量在未来任意时间的值(会加入一个时间编码,来确定究竟预测未来多久)。

该方法的benchmark结果是ClimateBench上的SOTA,并且对比WeatherBench上的集合预报(IFS)也是有竞争力的

 

数据:CMIP6是各种模式数据,ERA5是再分析数据

CMIP6用于预训练,因为数据量足够大,能够提供足够多的异质数据。ERA5用于微调和评估,作为最终认定的标准(微调的目标是确定最后参数,该参数用于最后的评估,说明作者认为EAR5是更可信的)

 

方法:We mainly work with two spatial resolutions: 5.625° (32 × 64 grid points) and 1.40625° (128 × 256 grid points),该工作的数据分辨率极低

variable tonkenization:image是RGB三个channel直接连在一起转token,这里说因为每个模式跑的变量不一样,所以分别tokenization

variable aggregation:把分别转token的n个变量,聚合成一个综合向量⭐⭐⭐

整体架构上基本沿用ViT,所以该工作是分好Patch在全局上进行注意力计算的

此外我大概看了一下,他提到注意力块和“预测头”,这可能不是对称的编解码结构,可能就一个小的预测头,但是注意微调阶段,这个预测头是要换掉的

在损失函数上,有一个纬度权重

 

posted @ 2023-06-27 15:24  诸葛村夫CC  阅读(157)  评论(0编辑  收藏  举报