2021CVPR论文阅读日志(1)--目标检测篇(1):摘要翻译:

1. YOLOF-You Only Look One-level Feature

1. 摘要:

     本文重新回顾了一阶段检测器中的特征金字塔网络(FPN),并指出FPN网络的成功在于他它面对目标检测中的优化问题时的“分而治之”方法。从优化角度看,为了处理这个问题,我们没有使用复杂的特征金字塔结构,而是引入了一个可替代的方法--只使用一级特征来进行检测。基于这个简单并且有效的方法,我们展示了我们的成果:You Only Look One-level Feature(YOLOF), 即你只用看一级特征。在我们的方法中,我们提出了两个关键的部分:"Dilated Encoder扩张的编码器"和“Uniform Matching统一匹配”,取得了可观的进步,

    在COCO benchmark上,我们做了大量的实验证明了我们方法的有效性。我们的 YOLOF 与其特征金字塔对应的 RetinaNet 取得了可比的结果,同时速度提高了 2.5倍。 在没有transformer层的情况下,YOLOF 可以以单级特征的方式与 DETR 的性能相匹配,训练次数减少 7 个。 在 608*608 的图像尺寸下,YOLOF 在 2080Ti 上以 60 fps 的速度运行达到 44.3 mAP,比 YOLOv4 快13%。 代码可在https://github.com/megvii-model/YOLOF。

paper: https://arxiv.org/abs/2103.09460

code: https://github.com/megvii-model/YOLOF

 

2. Towards Open World Object Detection (新坑:开放世界中会有乱七八糟的无监督对象,如何检测识别他们)

1. 摘要:

    本模型跟人的直觉认识未知事物相关。启发本文作者提出一个新的计算机视觉问题叫做:开放世界中的目标检测。

    这个模型的任务是:1)认识未标记过的未知类别对象。2)在不忘记之前类别的情况下,增量学习这些识别过的未知类目,且对应类别标签进步取得。

    我们量化这个问题,引入了一个实实在在的评价标准并提出了一个非常新颖的解决方法,我们称之为:ORE:Open World Object Detector, 基于对比聚类和能量的未知类别。

    我们的“实验评估”和“消融研究”分析了 ORE 在实现开放世界目标方面的功效。 作为一个有趣的副产品,我们发现识别和表征未知实例有助于减少增量对象检测设置中的混淆,在那里我们实现了最先进的性能,而无需额外的方法学努力。 我们希望我们的工作能够吸引对这个新的研究方向的进一步研究。

Paper: https://arxiv.org/abs/2103.02603

Code: https://github.com/JosephKJ/OWOD

 

3. Probabilistic two-stage detection (我翻译成:我们打算从概率角度解释两阶段检测问题,本文打算展示基于该角度得到的一些启发改进)

1. 摘要:

    我们研究了一个两阶段目标检测的概率解释(probabilistic inerpretation)。

    我们展示了这种概率解释启发了一些常规的实验性训练尝试。而且他也启发了一些两阶段段检测通道的改进方法。具体来说,第一阶段应该推断可能的“目标-背景”的可能性,并给出检测器的整体分数。一个标准的RPN网络无法足够优秀的推断出这种可能性,但是很多一阶段的检测器可以。

    我们展示了如何从state-of-the-art的但阶段检测器中构建一个概率两阶段检测器的方法,这样构建出来的检测器更快更准。

    我们的检测器在COCO上单尺度测试取得了56.4mAP,使用一个轻量backbone后,COCO上我们的检测器取得了49.2mAP,33fps,Titan Xp.比YOLO v4牛逼。

注: 我没看懂这个probabilistic inerpretation,所以翻译不准确。需要看一下论文。贴一下原文。

    We develop a probabilistic interpretation of twostage object detection. We show that this probabilistic interpretation motivates a number of common empirical training practices. It also suggests changes to two-stage detection pipelines. Specifically, the first stage should infer proper objectvs-background likelihoods, which should then inform the overall score of the detector. A standard region proposal network (RPN) cannot infer this likelihood sufficiently well, but many one-stage detectors can. We show how to build a probabilistic two-stage detector from any state-of-the-art one-stage detector. The resulting detectors are faster and more accurate than both their one- and two-stage precursors. Our detector achieves 56.4 mAP on COCO test-dev with single-scale testing, outperforming all published results. Using a lightweight backbone, our detector achieves 49.2 mAP on COCO at 33 fps on a Titan Xp, outperforming the popular YOLOv4 model.

paper:https://arxiv.org/abs/2103.07461

code:https://github.com/xingyizhou/CenterNet2

 

4. Adaptive Class Suppression Loss for Long-Tail Object Detection (对目标检测中的“长尾效应”采用改进的类别抑制损失)

1. 摘要:

  1) 阐述问题:“长尾效应”很容易发生,人话:数据集的分布不均匀问题。常规操作:分类别各自单独训练。该方法有两个问题:1‘ 类似大小的相似目标的训练不一致问题;2’长尾对象对相似目标的在训练过程中的区分度问题。

  2)我们的目的:解决上述两个问题,我们的方法:提出了类别抑制损失。具体来说:我们介绍了一种分析长尾分布的无统计观点(我不懂这句话),打破了手动分组的界限。根据这个观点,我们的 损失函数自适应地调整了每个类的每个样本的抑制梯度。

2. 原文摘要

To address the problem of long-tail distribution for the large vocabulary object detection task, existing methods usually divide the whole categories into several groups and treat each group with different strategies. These methods bring the following two problems. One is the training inconsistency between adjacent categories of similar sizes, and the other is that the learned model is lack of discrimination for tail categories which are semantically similar to some of the head categories.

In this paper, we devise a novel Adaptive Class Suppression Loss (ACSL) to effectively tackle the above problems and improve the detection performance of tail categories. Specifically, we introduce a statistic-free perspective to analyze the long-tail distribution, breaking the limitation of manual grouping. According to this perspective, our ACSL adjusts the suppression gradients for each sample of each class adaptively, ensuring the training consistency and boosting the discrimination for rare categories.(说好是区分度,为啥变成了罕见类别的区分度) Extensive experiments on long-tail datasets LVIS and Open Images show that the our ACSL achieves 5.18% and 5.2% improvements with ResNet50-FPN, and sets a new state of the art. 

paper:https://arxiv.org/abs/2104.00885

code:https://github.com/CASIA-IVA-Lab/ACSL

 

posted @ 2021-12-31 18:46  张幼安  阅读(247)  评论(0编辑  收藏  举报