强化学习在目标检测中的应用——AdaZoom: Towards Scale-Aware Large Scene Object Detection 论文解读

《AdaZoom: Towards Scale-Aware Large Scene Object Detection》笔记

1. 研究动机

1.1 挑战与困难

小目标检测和对象尺度差异存在挑战
现有研究方法对于大场景中如此极端尺度变化的物体缺乏灵活性，缺乏对不同尺度物体的适应性。

1.2 解决方案

构建了一个自适应缩放网络(简称AdaZoom)，对大场景图像中小物体的区域进行“聚焦”，并对不同尺度的物体进行自适应缩放
让目标检测成为主动，将AdaZoom的学习制定为基于强化学习(RL)的主动决策过程。

2. 方法解析

2.1 强化学习的策略梯度模型

该模型是期望函数模型奖励期望值，θ是期望函数都参数，γ是衰减值（时间步越大，得到奖励越衰减），r_t就是每一步得到的reward

该式是策略梯度的梯度上升算法，梯度上升，最大化期望值

2.1.1 state

状态S_t由基本特征图F_t和历史信息图H_t组成
参数表示

（3）中X_1t/K,Y_1t,/K,就这些边界框的坐标除去一个常数，是意味着这个边界框的放缩

（4）的意思是，H(i,j)是一个二维数组map，然后map里面的每一对（i,j）根据自己是否属于边界框的情况，来更新（i，j）坐标在二维数组map里面的值，因为Ⅱ是指示函数，Ⅱ后面的大括号判断该指示函数是0或1，H_t+1就是，如果满足条件，map上该坐标值+1，反之保留原状

（5）式也一个道理，当满足条件，在本来得坐标上乘κ，反之保留

2.1.2 Action

动作At从概率分布πΘ(At|St)中采样

第一个分支生成固定点pf (af |St)的概率分布，其中af为固定概率图pf∈Rh×w上的一个点，固定分支试图找到一组对象的中心
第二个分支生成一个尺度概率图其中n_s为候选区域尺度，尺度分支的作用是根据固定点周围物体的尺度来调整区域的尺度
第三个分支生成高宽比概率图p，n_r,定义为预定义的候选宽高比大小，高宽比分支以选定的区域尺度适应固定周围物体的分布。
策略网络

将状态输入到五个卷积网络，第一个卷积网络连接全局平均池化层，五个卷积网络拥有不同的卷积核以及膨胀率（感觉是卷积方式不同），以提取不同的感受野，最后把五个平行网络的输出concat连接起来，输入SEModule,一个全局池化，两个全连接，最后通过sigmoid生成概率分布

2.1.3 reward

(7)式，表示框内物体，而表示不在框内目标，大括号中的 X_1t,X_2t,Y_1t,Y_2t表示候选区域（大框），而u和v则表示，目标检测框（小框），(7)式的意义在于，不断地把框外目标给圈到框内
(8)式，框外物体的更新，就在于，不断地把已经进入框内的物体给去除
(9)式，奖励的计算，结合下文(10)式,(先跳转去看（10）)，可以通过第i个物体检测框预测尺寸和真实尺寸来定义评分Ii,权重wi的定义则根据其尺寸，尺寸越小，难度越大，故越重要，所以给它更高的权重但我不太理解的点是，为什么大家的分母不一样，要根据i,越大，分母越大，i有没有什么意义？于是加权求和完的评分就是reward
(10)式，感觉像是定义一个评分:

当真实尺度ρ在神经网络算出的action（scale），范围内，就表示差不多算对了，所以评分就为正值一，反之就要接受惩罚如式：

Δρ =,对于这个式子的理解，就是真实ρ和神经网络action预测的scale差距越大，Δρ越大，带入到(10)式，惩罚越大，因为根据数学推导，（10）的otherwise肯定小于1

posted @ 2024-05-06 13:56 糖子哥阅读(821) 评论(0) 收藏举报

刷新页面返回顶部