GradNet: Gradient-Guided Network for Visual Object Tracking阅读笔记
论文链接:PDF
总结:利用梯度信息去更新siamese tracker中的模板,使用了一种新的训练方式,使得网络更关注于梯度信息,防止过拟合
图片的梯度信息可以反映目标的变化(类似DAT,DAT中有理论解释)
网络框架:
可以看到,网络主要有两个分支,下面的一个分支用来提取search region的特征,上面一路提取target的特征,并进行模板更新。
给定一个图像对:, 希望对模板进行优化,得到优化的模板, 能够更好的从搜索区域中找出目标。首先,获取初始的模板特征:
其中, f2()是两层卷积层,U1是框架图中所示的一个子网络,是U1的参数
计算得分图:
计算loss:
Y是标签
将loss对 求导,将其加到上去,更新目标的特征:
得到新的模板,并计算得分图:
loss:
另外,作者认为现有的优化方法,不能很好的优化梯度,而是更关注于目标特征的相似性。因此,使用了一种新的模板生成的方式,去训练优化网络。
左边的是一般的做法,右边的是本文使用的模板生成的方法,使用一个模板在来自不同视频的搜索域上搜索目标,使得网络更关注于梯度,而不是外观特征,并能防止过拟合。