视频理解串讲
这是一篇早期论文提到的fusion方法,有late early,所以自然就想到slow,但实际上结果差别不大,甚至还不如手工特征,可见特征工程重要性
这篇文章作者采用了一个早期的类注意力机制,人为强制的将图片中心裁剪出来进行识别,当然这是假设我们关心的对象大概率出现在图片中心
第二个工作就是双流网络,双流网络是late fusion,可以考虑在模型的中间进行fusion。
但这个工作能处理的视频非常短,实验是在10帧的短视频上进行的。如果是高帧率的视频来说,10帧也就是0.5秒的时间,都无法覆盖一个完整的动作
显然双流网络里的单帧图片和光流,都无法做这件事
所以有一篇文章提出将视频分片,每一个分片进行一次双流
还有一个小点就是提取光流的那个网络在小数据集上结果不一定很好,但是又很难在大数据集上进行预训练。所以这里直接把imagenet上预训练好的模型参数拿过来用。但是预训练模型有RGB3个C,我们这里有20个C,办法就是把RBG3个C做一个平均,然后复制二十遍。
这里是对网络参数做了一个平均,很多时候看到在融合特征的时候,把网络输出的特征在某一层,做加法,做乘法,取平均,最大值,甚至用一个FC层等等,虽然从数学上讲操作不一样,但是在深度学习里搞不好都是work的(我们在GNN/transformer中都见过做加法做乘法的特征融合)
此外还有一个BN的问题:当视频数据集很小的时候,虽然采用BN会让训练加速,但也带来过拟合的问题。作者提出一个partial BN,在微调阶段如果所有BN都参与微调,那么一调就容易过拟合,但是如果全部冻住不调的话,迁移学习效果又会比较差。作者提出只对第一个BN进行微调,后面冻住不动。
第三类工作就是融合lstm,在较短的视频上提升有限。朱老师认为很好理解,短视频上每一帧内容都差不多,其实提取完特征输入lstm之前得到的东西都差不多,lstm很难再提到什么东西。但是如果每一帧差别很大,lstm的确还是能学到一些运动信息的。
抽光流这件事情非常耗时,不仅是在大数据集上抽光流需要花时间,而且没法实现视频信号的实时处理,所以各种研究一直在想办法怎么才能不用光流。当然光流至今为止,仍然是一个能让模型提升性能的特征工程。而且现在模型越做越大,本身也就不是实时的,当然加上光流会更慢
C3D(2015):直接将VGG扩展到三维。这里说微调费时费力效果也不好,作者选择直接抽取特征。他这里说的抽取特征就是用这个C3D这个网络来抽取,然后把特征单独拿出来,再训练一个分类器。而且实验里面也有在大数据上训练完微调以后有所提升的结果展示
这里得出结论,3D网络比2D网络更好
这里最终结果其实并不好,但是朱老师说他胜在可以抽取特征,就是说他提供了python/matlab接口,什么都不用管,输入视频然后得到一个特征,我们每个人只需要拿着这个特征去训练下游任务的模型即可。而且朱老师说现在transformer也是这么用的,模型太大,我们连微调都训练不动,所以往往直接用它抽特征,得到特征再做下游任务。
I3D我们之前做过笔记,它比C3D最大的优势在于,模型不用设计,直接由2D扩充而来,然后二维网络在imagenet上的预训练参数也想了个办法直接用上
I3D也证明了,即使是3D网络,使用光流也依然会提升性能
何凯明组的non-local一出现以后,就再也没有人用lstm了。non-local的意思是建立遥相关,其实就是自注意力机制的KQV
R2+1D:3D网络虽好,但是太贵了。作者发现将3D网络拆分成空间上2D,时间上1D,可以得到更好的结果,训练也更便宜
d就是之前看到的I3D C3D等纯3D网络,前面的abc做了各种位置的替换,e就是这篇提出的
最后发现纯2D网络肯定是不行,但是纯3D网络也不咋样,反而是混合使用的效果好一些,其中最好的是2+1D
这里,作者为了公平比较,所以将2+1网络的参数设置的尽量和3D网络差不多
为什么好?:增加了网络的非线性,之前一层3D网络,现在变成两层网络,做了两次非线性变换,学习能力变强了。 此外,拆分后的网络也要比纯3D的网络好学一点
slowfast:人的视觉系统有两种细胞,P细胞(80%)和M细胞(20%),P用于处理静态信息,M用于处理动态信息。所以,这又是一个双流网络。
但是这里的双流一个是slow,一个是fast,与人体一样,slow是模型的大头,其实就是一个I3D。另一个是fast,模型较小
假设有一个视频共64帧,slow隔16抽一帧,共4帧。fast分支隔4抽一帧,共16帧。一边是模型大,一边是数据多,所以计算复杂度差不多。
两个模型在中间也是进行信息交互的
最终达到了速度和精度的结合,这个工作是基于3D网络的方法里,效果比较好的一个了
Timesformer
作者将所有自注意力方案都试了一遍,蓝色是一个patch,其他颜色表示和蓝色做注意力的patch
这是将transformer应用到视频上最初的工作
后来还有朱老师的vidtr facebook的mvit(multi-scale) google的vivit