spatial-temporal information extraction典型方法总结

====================================

咳咳咳

由于科研的直接对象就是video sequence，所以，如何更好地提取spatial-temporal information至关重要。
so,总结了一下以前看过的，包括现在正在复现的paper 中的idea。

1. LSTM

L. Jiang, M. Xu, and Z. Wang. Predicting video saliency with object-to-motion CNN and two-layer convolutional LSTM. CoRR, abs/1709.06316, 2017.

论文在这里.，源码在这里

这篇是two stream+lstm实现video saliency最早的一篇论文了应该，虽然当时也是想到这种方法，但是，速度太慢。。。人家结果都出来了，emmmmm，所以说，想法很重要，快速实现也很重要。

2. 3D CNN的扩展

Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, Manohar Paluri, A Closer Look at Spatiotemporal Convolutions for Action Recognition,CVPR2018

论文在这里.，源码在这里
作者将3D CNN替换成了连续的两次卷次操作（2D空间卷积+1D时间卷积）

好处：
1. 一次操作变成两次，double了激活次数，有利于增强模型表达能力；
2.有利于模型训练，3D CNN将时序特征和空间特征提取混在一起，相互干扰，不利于模型的训练。

未完待续，其他看过的都是大同小异，离不开LSTM，看到更好地能对自己有新的提示的好文再来更新~~

posted @ 2018-11-27 15:39 恩zzq我是阅读(596) 评论(0) 编辑收藏举报

刷新页面返回顶部

恩zzq我是

spatial-temporal information extraction典型方法总结

咳咳咳

1. LSTM

2. 3D CNN的扩展

公告