摘要:
摘要:当前大多数模型使用整理好的同质的数据,也就是说针对特定数据特定下游任务的。ClimaX使用跨越不同变量、空间位置、物理基础的异构数据,也就是说是一个经过自监督预训练(CMIP6)的大模型。 intro: 第一个问题:训练大模型要使用非常大的数据集进行与训练,NLP和CV使用了互联网规模的数据进 阅读全文
摘要:
2023-6-17 清华团队的工作:全球观测站的统一预报《(NMI)Interpretable weather forecasting for worldwide stations with a unified deep model》 知乎:https://zhuanlan.zhihu.com/p/ 阅读全文
摘要:
摘要:earthformer是基于一个时空注意力块,称为Cuboid Attention。将数据分解为多个立方体块(cuboid),然后在方块上计算自注意力,有一个全局向量和所有方块连接和汇总。 硬件:这个工作是在一块V100上完成的,开销很小。因为实验是在MNIST上做的,当然也做了降雨和ENSO 阅读全文
摘要:
预测对象:三维海洋上层温度异常、风应力异常 预测期:18个月 特点:由于考虑了风,所以一定程度上认为耦合了海气动力学 变量:该模型考虑了三个变量,径向/纬向风应力,以及上层海洋温度(共七层,5,20,40,60,90,120,150) 参数设置:全部变量叠加到一起是九层,一起输入模型。每一层是以ch 阅读全文
摘要:
先写自适应傅里叶神经算子(AFNO) 目的:AFNO这篇文章的标题和摘要前几句定调了一个基调,就是说AFNO这个东西提出来,是为了替换transformer里面的多头自注意力,作为一个更高效的token mixer出现 摘要: AFNO是基于运算符学习的原则性基础,它使我们能够将token mixi 阅读全文
摘要:
这是一篇早期论文提到的fusion方法,有late early,所以自然就想到slow,但实际上结果差别不大,甚至还不如手工特征,可见特征工程重要性 这篇文章作者采用了一个早期的类注意力机制,人为强制的将图片中心裁剪出来进行识别,当然这是假设我们关心的对象大概率出现在图片中心 第二个工作就是双流网络 阅读全文
摘要:
本文提出一个新的3D模型,以及一个大的视频数据(注意这是一篇2018年的文章了) 它告诉我们如何使用在2D领域中已经取得成功的网络如何扩展到3D,甚至是使用预训练好的参数 当时已经有很多视频数据集,但这些数据不是因为太大,普通玩家都玩不动,就是内容比较局限。所以作者利用这个机会提出了kinetic数 阅读全文
摘要:
视频理解难点在于两处,一种是图像的appearance信息(外表信息),另一种是运动信息(时序信息) 该文贡献有三点:1.双流 2.已证实,在少量数据下,只学习光流信息也能取得较好效果 3.为弥补数据的不足,在两个数据集上训练骨干网络,在两个数据集上都有效果提升 导言:与图像识别相比,视频中的动作信 阅读全文
摘要:
这个东西大体就是说,之前都是用Imagenet这种一个图片对应一个确定的分类,这样你的输出层softmax就是固定数量的,比如1000选一。 CLIPS可以学习视觉信息和语义信息的对应,用对比学习的方法,这样就可以用大量的社交网络上爬下来的图片以及图片的caption进行训练。说白了就是想用文本(一 阅读全文
摘要:
22年初的屠榜模型 题目:用了移动窗口的层级式的vision transformer 摘要:Swin transformer可以作为CV中通用骨干网络。与NLP不同的第一个是对象尺度的问题,第二是多次提到的分辨率太大的问题,之前工作已经用很多办法减少过输入模型的序列长度。移动窗口可以让每次只计算一个 阅读全文