决策智能在视频理解领域有什么应用?有什么强化学习的方法能提升视频的处理能力?
在当今信息大爆炸的时代,人们已越来越多地习惯用视频的形式传达信息,在Youtube上每分钟就有超过300小时的视频上传。而且在媒介形式中,视频相较于图片有着更大的使用场景和应用范围。自动识别这些海量视频中的人类行为、事件、紧急情况等内容,对于视频推荐、监控预警等实际应用具有重要意义。
近年来,已有很多基于深度学习的视频识别算法,如TSM、SlowFast、I3D,已经取得了较佳的性能表现。然而一个棘手的问题是,相较于图像,使用深度神经网络处理视频通常会需要海量计算资源。
今天给大家介绍一个解决此类问题的方法AdaFocus,通过使用决策AI中的强化学习方法,尝试利用视频的空间冗余性和时序冗余性来减小计算量,从而提升对视频的处理能力。

开源代码:https://github.com/blackfeather-wang/AdaFocus
1.AdaFocus简介
AdaFocus是一种新开发的自适应焦点方法,主要用途是动态定位和关注每个帧的任务相关区域。AdaFocus 探讨了为了提高计算效率,解决视频识别中的空间冗余问题。据观察,视频的每一帧中信息最多的区域通常是一个小的图像块,它在帧之间平滑移动。因此,AdaFocus将区块定位问题建模为序列决策任务,并提出了一种基于强化学习的高效空间自适应视频识别方法。具体来说,首先采用轻量级卷积网络来快速处理完整的视频序列,其特征被循环策略网络用来定位与任务最相关的区域。然后通过大容量网络推断选定的区域以进行最终预测。在离线推理过程中,一旦生成了信息丰富的图像块序列,后续大部分计算就可以并行完成,在现代 GPU 设备上也是高效的。此外,本文证明了所提出的方法可以通过进一步考虑时序冗余来轻松扩展,例如,动态地跳过价值较低的帧。在五个基准测试数据集(即 ActivityNet、FCVID、MiniKinetics、Something-Something V1&V2)上进行的大量实验表明,本文提出的方法比竞争对手的基线方法更有效。在方法上,本文还提出了一个通用于大多数网络的AdaFocus框架,在同等精度的条件下,相较AR-Net (ECCV-2020)[1]将计算开销降低了2.1-3.2倍,将TSM的GPU实测推理速度加快了1.4倍。 大多数现有工作通过选择一些信息丰富帧进行处理来降低计算成本,而 AdaFocus 旨在通过关注每个帧的目标相关的图像块来执行有效的推理。 重要的是,本文提出的方法与基于时序的方法兼容,因为它可以通过跳过不太重要的帧 (AdaFocus+) 来改进。

2.方法介绍
与大多数通过利用时间冗余促进高效视频识别的现有工作不同,AdaFocus方法寻求节省花费在视频帧的任务无关区域上的计算,从而通过减少空间冗余来提高效率。该网络首先使用轻量级全局 CNN 快速提取每一帧
的特征。 其次再建立一个循环策略网络 π 来选择对视频识别来说最重要的图像区域
。然后采用大容量网络局部 CNN
从
中提取特征,最后循环分类器跨帧聚合特征以获得预测结果
。

网络结构
AdaFocus的网络主要分为四个部分(全局CNN,策略网络,局部CNN,分类器),下面将依次介绍。该网络在处理视频的时候,视频是解码为帧后一帧一帧按时序输入的。
- 全局CNN
(Global CNN)是一个轻量化的卷积神经网络,可以低成本地对每一帧视频进行粗略处理以为接下来的策略网络提供必要的信息来决定需要重点分析的图像块。
- 策略网络 π(Policy Network)是一个循环神经网络(RNN)。其输入是提取出的逐帧的特征图,用于整合到目前为止所有视频帧的信息。最终决定当前帧中包含最重要信息的一个图像块的位置。值得注意的是由于patch的位置操作是离散的动作空间,是不可导的。因此该模块需要使用强化学习中的策略梯度方法(policy gradient)来进行训练。
- 局部CNN
(Local CNN)与全局CNN网络相反,
是一个大容量、高准确率但同时参数量和计算开销较大的卷积网络。AdaFocus中的
仅需要处理策略网络提供的一系列相对小的图像块,所以此部分并不会给整体带来比较大的计算消耗。
- 分类器
(Classifier)也是由一个循环神经网络(RNN)组成,本研究将
和
的输出进行拼接作为分类器网络的输入。RNN用于整合过去所有视频帧的信息,以得到当前帧的识别结果
(
表示帧序号)。
训练算法
为了保证上述得4个部分可以正常运行,AdaFocus引入了一个三段式的训练方法:
(1) 在第一个阶段,只训练 ,
和
这三个网络。并将策略网络 π暂时性由随机选取图像patch的策略替代。训练网络的目标是分类部分最小化交叉熵损失。在这个阶段,模型学习从任意帧图像patch序列中提取任务相关的信息,为后续训练策略网络根据分类部分网络的行为判断不同patch的重要性奠定基础。
(2) 在第二个阶段,我们先固定在第一个阶段获得的 ,
和
这三个网络的参数,只训练策略网络 π。本研究采用的是随机初始化策略网络 ,并将之建模为智能体(agent),以强化学习算法对进行训练,优化目标为最大化奖励函数。关于强化学习部分,本文将选择图像patch的问题建模为一个在若干个候选patch上的多类离散分布,每一类别的概率由策略网络π的输出决定。训练时,随机从这个分布中采样出一个动作,并得到一个对应的奖励函数值(reward),reward较大的动作将受到鼓励,reward较低的动作则将受到抑制。研究将reward的值定义为给定动作在标签类别上的confidence上升的效果与随机选择patch所得效果的比较差值。具体可见公式一。

(3) 在第三个阶段,固定 和策略网络 π的参数,微调
和
网络。该阶段的训练能够进一步提升模型性能。
减少时序冗余

为了探索空间、时间冗余性是否互补的问题,本文又提出了增强版本的AdaFocus,即AdaFocus+。具体而言,加入了一个与 2.1中的策略网络 π 结构完全相同的策略网络π' ,用于判断对于每一帧视频是否跳过由π选择出的局部patch的处理,如图四所示。与策略网络 π 相似,π' 优化目标同样是最大化折扣奖励函数,具体可见公式二。


本文提出的 AdaFocus 方法与先前基于时序的技术兼容。 通过使用一个额外的策略网络 π' 来决定是否要参与每个帧的计算(即用 处理
),此技术可以进一步减少花费在不太重要的帧上的冗余计算。
3.实验结果
AdaFocus在ActivityNet,FCVID,Something2Something (V1&V2)上均做了实验。具体的实验结果可见图四,图五和表一至表三。





消融实验
策略网络π学习的patch选取策略的有效性在表四中得到验证。本文考设计了三种对照方案:(1)随机抽样,(2)从帧中心裁剪,以及(3)从标准高斯分布中抽样。此外文章设计了两种强化学习的奖励函数方案:(1)置信度奖励直接使用对真实标签的置信度,(2)增量奖励使用置信度的增量作为奖励。这里没有使用提取处的特征参与识别。一个有趣的现象是随机策略看起来性能很高并且优于中心裁剪策略,这可能由于帧之间的空间相似性导致的。因为相邻的中心块可能具有重复的内容,而随机抽样可能会收集到更全面的信息。此外,它也表明本文所提出的奖励函数显着优于其他函数。

4.可视化结果
研究结果可视化了本文提出的 AdaFocus 选择的区域。 由图六所示,本研究从 ActivityNet 统一采样 8 个视频帧。 我们可以观察到,本方法有效地引导昂贵的局部 CNN 处理每一帧的任务相关区域,例如帆板、自行车和长笛。

5.决策AI和视频理解的未来
针对高效视频识别的研究具有着重大意义,在安防、视频直播和流媒体等领域有着广泛的应用。今天给大家介绍了一种基于空间冗余的高效视频识别方法 AdaFocus。 受视频帧中并非所有图像区域都与任务相关这一事实的启发,AdaFocus 仅通过在每帧的微小但信息丰富的补丁上推断大容量网络来降低计算成本,该补丁自适应地定位于强化学习,这对于强化学习在视频理解领域中的拓展有着重大的意义。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!