行人检测评价指标

转载：https://zhuanlan.zhihu.com/p/427423069

转载：https://zhuanlan.zhihu.com/p/350831888

最近在细究行人检测中的评估指标的计算方式的时候，在网上也找了许多的资料，但是感觉不是很齐全或者不便于理解，这里对行人检测中的评价指标进行一个总结

通用目标检测一般会关注AP，更具体一点会关注不同matching iou和不同size gt下的AP，比如

粗略来讲，AP受recall影响很大，因为可以取到FPPI很大时的情况；而相对地，

对目前行人检测的评测来说，无论对哪个数据集

常见bad case

遮挡和姿态问题都给行人检测带来了很大的困难，结合我在实际项目中观察的bad case，行人检测容易出现的问题主要是以下几种：

非人但和人比较相似的FP：比如猫狗体、绿植;
非人但经常伴随人出现的FP：比如椅子、摩托车;
框不准FP：这种FP又包括两种，一种是单人没框全FP，比如一个人张开胳膊但出的检测框没把胳膊框进去;另一种是多峰FP，即出的一个人框和多个gt框iou都有交集但和每个gt的iou都没有超过能判为TP的阈值，这种情况经常是在较拥挤的场景下发生;

如果直接把通用物体检测的方案拿过来，上面的问题很容易出现，粗略分析一下其原因有以下几方面：

网络的特征表示能力不强：无法正确区分人和其他非人物体的特征，无法很好区分开人和人之间的边界，导致了一些非人FP、框不准FP;
NMS比较粗暴：一般的NMS靠iou来杀框，这其中隐含的先验是当两个框的iou超过一定阈值后认为这两个框就是一个人。可想而知在本来就比较密集的场景下即使检测能检全也还是会被NMS杀掉一部分。大多数NMS的输入信息只有框的置信度和位置，从信息量上就不可能有能解决上述问题的完美方案。

posted on 2022-10-24 19:47 该用户很懒阅读(589) 评论(0) 编辑收藏举报