【CV论文阅读】Rank Pooling for Action Recognition

这是期刊论文的版本，不是会议论文的版本。看了论文之后，只能说，太TM聪明了。膜拜~~

视频的表示方法有很多，一般是把它看作帧的序列。论文提出一种新的方法去表示视频，用ranking function的参数编码视频的帧序列。它使用一个排序函数（ranking function）主要基于这样的假设：帧的appearance的变化与时间相关，如果帧vt+1在vt后面，则定义；此外，假设同一动作的视频帧序列，学习到的排序函数的参数，应该的大致一致的。但实际上，后面的假设并没有给出严格的证明，只能说实验的结果证明了这样的想法。

参数定义

假设输入的原始帧为x，则一个视频的帧序列为。把原始帧序列经过smooth操作，得到新的序列。但实际上，这个新的序列，可以是与原始帧有同样大小的image，也可以是原始帧的特征向量。视频的实际动态信息为D，而使用一个线性排序函数编码视频的动态信息为，u是函数的参数，也就是需要学习的对象，并用它来表示一个视频。那么，学习的目标就是

Rank pooling

Rank pooling 的方法是使用一个RankSVM的学习排序算法计算的。整个Rank pooling的学习过程可以总结如下：（1）输入的数据为处理过的帧序列V，由于RankSVM实际上是有监督学习，所以序列的顺序是知道的（2）如上定义了序列的先后顺序，定义正例样本为，其中时间ti在tj之后，反例样本为它的相反数。（3）可以通过SVM的学习算法，学习如下的凸优化问题