强化学习在目标检测中的应用——AdaZoom: Towards Scale-Aware Large Scene Object Detection 论文解读

《AdaZoom: Towards Scale-Aware Large Scene Object Detection》 笔记

1. 研究动机

1.1 挑战与困难

  1. 小目标检测和对象尺度差异存在挑战
  2. 现有研究方法对于大场景中如此极端尺度变化的物体缺乏灵活性,缺乏对不同尺度物体的适应性。

1.2 解决方案

  1. 构建了一个自适应缩放网络(简称AdaZoom),对大场景图像中小物体的区域进行“聚焦”,并对不同尺度的物体进行自适应缩放
  2. 让目标检测成为主动,将AdaZoom的学习制定为基于强化学习(RL)的主动决策过程。

2. 方法解析

2.1 强化学习的策略梯度模型

image该模型是期望函数模型奖励期望值,θ是期望函数都参数,γ是衰减值(时间步越大,得到奖励越衰减),r_t就是每一步得到的reward

image该式是策略梯度的梯度上升算法,梯度上升,最大化期望值

2.1.1 state

  1. 状态S_t由基本特征图F_t和历史信息图H_t组成
  2. 参数表示

image

(3)中X_1t/K,Y_1t,/K,就这些边界框的坐标除去一个常数,是意味着这个边界框的放缩

(4)的意思是,H(i,j)是一个二维数组map,然后map里面的每一对(i,j)根据自己是否属于边界框的情况,来更新(i,j)坐标在二维数组map里面的值,因为Ⅱ是指示函数,Ⅱ后面的大括号判断该指示函数是0或1,H_t+1就是,如果满足条件,map上该坐标值+1,反之保留原状

(5)式也一个道理,当满足条件,在本来得坐标上乘κ,反之保留

2.1.2 Action

动作At从概率分布πΘ(At|St)中采样

image

  1. 第一个分支生成固定点pf (af |St)的概率分布,其中af为固定概率图pf∈Rh×w上的一个点,固定分支试图找到一组对象的中心

  2. 第二个分支生成一个尺度概率图image其中n_s为候选区域尺度,尺度分支的作用是根据固定点周围物体的尺度来调整区域的尺度

  3. 第三个分支生成高宽比概率图p,n_r,定义为预定义的候选宽高比大小,高宽比分支以选定的区域尺度适应固定周围物体的分布。

  4. 策略网络

image
将状态输入到五个卷积网络,第一个卷积网络连接全局平均池化层,五个卷积网络拥有不同的卷积核以及膨胀率(感觉是卷积方式不同),以提取不同的感受野,最后把五个平行网络的输出concat连接起来,输入SEModule,一个全局池化,两个全连接,最后通过sigmoid生成概率分布

2.1.3 reward

image

  1. (7)式,image表示框内物体,而image表示不在框内目标,大括号中的 X_1t,X_2t,Y_1t,Y_2t表示候选区域(大框),而u和v则表示,目标检测框(小框),(7)式的意义在于,不断地把框外目标给圈到框内

  2. (8)式,框外物体的更新,就在于,不断地把已经进入框内的物体给去除

  3. (9)式,奖励的计算,结合下文(10)式,(先跳转去看(10)),可以通过第i个物体检测框预测尺寸和真实尺寸来定义评分Ii,权重wi的定义则根据其尺寸,尺寸越小,难度越大,故越重要,所以给它更高的权重image但我不太理解的点是,为什么大家的分母不一样,要根据i,越大,分母越大,i有没有什么意义?于是加权求和完的评分就是reward

  4. (10)式,感觉像是定义一个评分:
    image
    当真实尺度ρ在神经网络算出的action(scale),范围内,就表示差不多算对了,所以评分就为正值一,反之就要接受惩罚 如式:

Δρ =image,对于这个式子的理解,就是真实ρ和神经网络action预测的scale差距越大,Δρ越大,带入到(10)式,惩罚越大,因为根据数学推导,(10)的otherwise肯定小于1

posted @ 2024-05-06 13:56  糖子哥  阅读(164)  评论(0编辑  收藏  举报