【五期杨志】CCF-A（CVPR'21） AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition

Panda R, Chen C F R, Fan Q, et al. Adamml: Adaptive multi-modal learning for efficient video recognition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 7576-7585.

在视频理解任务中，多种模态的输入数据往往会携带大量的冗余信息，从而影响计算效率和实时应用的需求。以往的解决方法过于极端，对冗余信息大的视频片段直接抛弃，这样就丢失了其中一些有用的信息。本文提出了一种自适应多模态选择策略，用于自适应地决策视频中每个片段的最佳模态数据，再用来进行后续的视频识别，同时提升了模型的准确性和效率。

本文的优点在于能够自适应地选择合适的模态信息，减少冗余特征和计算量，提高模型的效率和准确性。并且使用Gumbel-Softmax联合训练策略网络和识别网络，有效的解决了二元决策离散的不可微问题。

本文的不足是对模态的二元决策策略没有详细的介绍和解释，有点不太理解具体的模态选择过程。

2023年2月28日

posted @ 2023-02-28 17:51 方班隐私保护小组阅读(54) 评论(0) 编辑收藏举报

刷新页面返回顶部

方班隐私保护小组

【五期杨志】CCF-A（CVPR'21） AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition

公告