论文阅读笔记:ViViT: A Video Vision Transformer

1.模型整体架构

 左图为论文作者提出了用于视频分类的架构,基于纯transformer的,右图为用不同方式处理时空特征的Encoder的不同组件的变体。

2.视频特征及token构建

2.1 Uniform frame sampling

 这种方法就是如图所示,均匀间隔固定的帧,采样帧信息,按照Vit的方式独立嵌入2D帧,然后拼接成为序列信息nt输入。变成nt·nh·nw,输入到Encoder。

2.2 Tubelet embedding

 这种方法是提取一个3D的特征,假设每个tutle的shape是t,w,h,那么每nt帧提取一次,nt=T/t(向下取整),将提取出的每一帧的同位置的高宽信息作为一个patch输入,每nh高提取一次,nh=H/h(向下取整),每nw宽提取一次,nw=W/w(向下取整),分别从时间信息,宽和高提取特征。这种方法在token的过程中结合了时空信息,而2.1方法则是将不同帧的时间信息由transformer融合。

3.视频Transformer模型

3.1 Model 1: Spatio-temporal attention

最基础的方法,直接将时空token信息成对输入Encoder,经过transformer原始架构输出结果。

3.2 Model 2:Factorised encoder

 这种模型是使用了两个encoder,一个先对每帧的特征进行encode,输入一帧中的多个token信息,输出一个token,表示一帧的空间信息。第二个是进行时间编码,输入第一个encoder输出的多个帧的token,输出一个token,这个token是融合了多帧的时空特征信息的,然后输出结果使用MLP分类,对应了时空信息的后期融合(late fusion)思想。

3.3 Model 3:Factorised self-attention

 这种模型和基础模型1一样的层数,但是和1不同的是,他没有在注意力层将所有的token进行多头自注意力操作,是在自注意力self-attention层进行了分解时空数据处理,也就是先对同一帧的空间信息不同toekn之间进行attention,再对不同帧的同一位置的token之间进行attention,实现时空信息的处理。

可以通过将空间自注意层的输入的形状从R1*nt·nh·nw变成Rnt·nh·nw来去除时间信息,将时间自注意力层输入形状变成Rnh·nw·nt这个模型中时空处理的顺序没有影响,但是不使用分类标记cls,以免在时间和空间维度重塑的过程中出现歧义。

3.4 Model 4:Factorised dot-product attention

 

 这种模型使用了多头注意力的不同头,一半用于计算时间信息,一半用于计算空间信息,其中用于计算时间信息的K,V形状为Rnh·nw·d,空间信息的K,V形状为 Rnt·d。最后的输出形状都是 RN*d ,然后将其拼接,乘上Wo权重,得到结果。

4.其他一些技巧

4.1 位置编码

由于模型使用预训练的图像模型迁移到视频模型,因此将其位置编码形状从Rnw·nh·d进行重复循环时间位置转化成Rnt·nh·nw·d。即给它从h*w这样的2d信息,变成t*h*w这样的3d信息。

4.2 嵌入权重

为了使3D采用2D,经过测试,中心帧初始化的方式效果最好,即E的权值在所有时间位置都初始化为0,只有中间的位置为Eimage

5.数据流动

 

 其中cls_token借鉴的bert,代表图像的整体特征。

 

参考:

论文:https://arxiv.org/abs/2103.15691

代码:https://github.com/google-research/scenic

https://blog.csdn.net/ResumeProject/article/details/123470594?spm=1001.2101.3001.6650.16&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EOPENSEARCH%7ERate-16-123470594-blog-124348140.pc_relevant_antiscanv2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EOPENSEARCH%7ERate-16-123470594-blog-124348140.pc_relevant_antiscanv2&utm_relevant_index=18

 
 
 
 
posted @   梦想是能睡八小时的猪  阅读(1287)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示