随笔分类 - video recognition
摘要:C3D Introduction 卷积神经网络(CNN)近年被广泛应用于计算机视觉中,包括分类、检测、分割等任务。这些任务一般都是针对图像进行的,使用的是二维卷积(即卷积核的维度为二维)。而基于视频的问题,提特征的方法主要分为双流和C3D两个分支,目前C3D衍生出P3D,I3D等等,这里只介绍最早的
阅读全文
摘要:Motivation:减少时空网络的计算量,保持视频分类精度的基础上,使速度尽可能接近对应网络的2D版本。 为此提出 Multi-Fiber 网络,将复杂网络拆分成轻量网络的集成,利用 fibers 间的信息流引入多路器模块。 Result:比I3D和R(2+1)D分别少9倍,13倍的计算量,但精度
阅读全文
摘要:ARTnet: caffe实现:代码 1 Motivation:How to model appearance and relation (motion) 主要工作是在3D卷积的基础上,提升了action recognition的准确率,没有使用光流信息,因为光流的提取速度特别慢,这可能是未来的研究
阅读全文
摘要:Two-Stream Inflated 3D ConvNet (I3D) HMDB-51: 80.9% and UCF-101: 98.0% 在Inception-v1 Kinetics上预训练 ConvNet+LSTM:每一帧都提feature后整视频pooling,或者每一帧提feature+L
阅读全文
摘要:摘要 解决问题 用CNN框架有效提取video长时序特征 在UCF101等训练集受限的情况下训练网络 贡献 TSN网络,基于长时间时序结构模型。稀疏时序采样策略,视频层监督有效学习整个视频。 HMDB51(69.4%),UCF101(94.2%) 介绍 动作识别有两个重要和补充的方面 appeara
阅读全文