siamese跟踪论文思考
转载自:https://zhuanlan.zhihu.com/p/34222060
通过作者在专栏里面放的几张响应图我们可以看到:SiamFC并不能区分不同的物体,图片上所有具有语义信息的物体都会得到较大的响应;
但是它在数据集上的表现确实是不错的,那么为什么呢,是因为加了窗函数,将周边的物体抑制掉了,猜测在跟踪的评价数据集中,大部分也是目标物体周围的其他物体较少,因此才能有不错的表现;
接下来作者进行了分析,既然网络所学习到的特征不够好,那么只需要学习到好的特诊好就行了,一个很容易想到的方法就是增大数据集,但是直接简单粗暴的增大数据集会有用吗?这里作者进行了分析,直接用训练集中的视频查看网络提取特征的区分能力,发现,在训练集中网络也不能区分开目标前景以及其他的干扰前景,然后得出结论直接加数据是不行的,这里我感觉,可就是因为训练集中,目标物体附近的干扰物太少,网络在学习的过程中,就偷懒了,只学习目标物体与背景之间的区别就可以了,这样就可以使loss降低了,因此我觉得,简单的加数据没有用,但是添加一些有干扰物的训练集是不是会有用呢?其实就是有意添加难例的负样本,这个在作者后续的DaSiameseRPN中有提到;
那么如何做负样本呢?作者在后续的论文中,提到了使用检测数据集中,同类但不同ID的物体作为负样本,这个是怎样加入到训练中的呢?训练集不应该只存在同一个视频中的间隔或者连续帧吗?正负样本的比例又是怎样的呢?