Temporal Segment Networks

BN-Inception 结合双流网络
- TSN在双流上改进
对一个视频，切分为K 个等长片段 {S1, S2, · · · , SK}，从每一个片段中随机抽取一个短的snippet，过双流，不同snippet的分类得分通过片段聚合函数聚合成最后的视频分类的得分，双流融合产生最后的结果
T表示不同snippet，F表示CNN双流提特征，G是融合函数，H是softmax
Loss：，标准类别交叉熵损失
聚合函数
- 平均 (最好) 对所有snippet的属于同一类别的得分做个均值
- 取最大
- 加权平均

提特征的参数W的导数可以看出，tsn网络的是从视频整体进行参数学习，不是针对特定某个短的snippet。　

网络结构：

　　 BN-Inception作为双流的基础结构，RGB：一张rgb图，光流：堆叠的光流场

几种策略减少训练时过拟合

1 跨模态pretrain:

rgb直接用imageNet就好，光流的数据分布明显不同，不能直接用rgb model pretrain optical flow model.

先线性变换，将光流离散化为0-255，修改第一个卷积层的权重，rgb通道的权重取平均后沿着光流通道数复制，从而初始化光流网络。

2 partial BN正则化:

bn，估计batch数据中的均值和方差，从而将激活值转化为标准化正太分布，加速模型收敛，由于数据量的原因可能导致过拟合，所以实验采用，除了第一层， freeze 其他层 BN 中的 mean 和 variance 参数。

在全局池化后面加了dropout

3 数据增广

random cropping, horizontal flipping

New: corner cropping and scalejittering

　　　　4 corners and 1 center 防止过于关注图片中心区域。

　　　　先将rgb或光流resize到256×340，长宽在{256, 224, 192, 168}中随机选，crop后resize到224 × 224，送入网络训练

修改版Caffe和OpenMPI，多卡并行加速训练，4块TITANX，训练时间UCF101 is around 2 hours for spatial TSNs and 9 hours for temporal TSNs。

posted @ 2018-09-10 00:24 demianzhang 阅读(1934) 评论(0) 收藏举报

刷新页面返回顶部

Forrest