【五期杨志】CCF-A(CVPR'21) AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition

Panda R, Chen C F R, Fan Q, et al. Adamml: Adaptive multi-modal learning for efficient video recognition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 7576-7585.

   在视频理解任务中,多种模态的输入数据往往会携带大量的冗余信息,从而影响计算效率和实时应用的需求。以往的解决方法过于极端,对冗余信息大的视频片段直接抛弃,这样就丢失了其中一些有用的信息。本文提出了一种自适应多模态选择策略,用于自适应地决策视频中每个片段的最佳模态数据,再用来进行后续的视频识别,同时提升了模型的准确性和效率。

  本文的优点在于能够自适应地选择合适的模态信息,减少冗余特征和计算量,提高模型的效率和准确性。并且使用Gumbel-Softmax联合训练策略网络和识别网络,有效的解决了二元决策离散的不可微问题。

  本文的不足是对模态的二元决策策略没有详细的介绍和解释,有点不太理解具体的模态选择过程。

2023年2月28日


posted @ 2023-02-28 17:51  方班隐私保护小组  阅读(48)  评论(0编辑  收藏  举报