[action] A Comprehensive Study of Deep Video Action Recognition

论文赏析

A Comprehensive Study of Deep Video Action Recognition [Submitted on 11 Dec 2020]

视频理解论文串讲(上)【论文精读】

视频理解论文串讲(下)【论文精读】

 

读后感

  1. Hand-crafted --> CNN
  2. Two-stream
  3. 3D CNN
  4. Video transformer

 

3D CNN

Ref: 基于opencv,使用python提取视频帧以及提取TVL1光流,计算代价较大。

  • 3D卷积

C3D提倡了特征提取这样的概念。

 

  • I3D

I3D 论文精读【论文精读】,一己之力,双流到3D网络,刷爆了原来的数据集。

 

  • Non-local Neural Networks

时序建模

自注意力 --> vision transformer

自注意力机制是注意力机制的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。

Origin from Non-local means.

不用光流,也可以达到不错的效果。

 

  • Slow-fast

模拟人眼两类细胞原理。

 

 

 

总览总结

 

 

 

其他资源

作者单位:亚马逊( @李沐等人)

论文:https://arxiv.org/abs/2012.06567

模型库介绍链接:https://cv.gluon.ai/model_zoo/action_recognition.html

Slowfast Model

Ref: 【唐宇迪】一行代码调用预训练模型!行为识别模型Slowfast算法通俗解读 人工智能入门教程

获取动作?获取环境?

 

 
posted @   郝壹贰叁  阅读(81)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示