ECCV 2022 | OA-MIL：目标感知多实例学习方法

前言针对定位精度受到不准确边界框的严重影响，而分类精度受影响较小，因此本文提出利用分类作为指导信号来改进定位结果。
通过将目标视为实例包，作者提出了一种目标感知多实例学习方法（OA-MIL），其特点是目标感知实例选择和目标感知实例扩展。前者旨在为训练选择准确的实例，而不是直接使用不准确的框标注。后者侧重于生成用于选择的高质量实例。
在合成噪声数据集（即有噪声的PASCAL VOC和MS-COCO）和真实的有噪声wheat head数据集上进行的大量实验证明了OA-MIL的有效性。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。目前公众号正在征稿中，可以获取对应的稿费哦。

QQ交流群: 444129970。群内有大佬负责解答大家的日常学习、科研、代码问题。

原文：https://arxiv.org/pdf/2207.09697.pdf

代码：https://github.com/cxliu0/OA-MIL

创新思路

目前目标检测是做得非常好的方向，其主要受益于标注数据非常多，但对于其他方向来说，标注是很困难的事，尤其对于一些专业领域的数据，例如农业，医学图像，如果不是专业人员，甚至都不知道应该标注哪些。

这种情况导致了一个困境，即没有计算机视觉背景的从业者不确定如何标注高质量的框，而没有领域知识的标注者也很难标注精确的目标框。另一方面，在自然环境中标注大量常见目标既昂贵又耗时。为了降低标注成本，数据集制作者可能依赖社交媒体平台或众包平台。然而，上述战略将导致标注质量低下。

最近，具有噪声数据的学习目标检测器引发了极大的兴趣，已有几种方法尝试处理噪声标注。这些方法通常假设噪声出现在类别标签和边界框标注上，并设计一个分离的体系结构来学习目标检测器。与之前的工作不同，作者主要关注带噪边界框标注的目标检测。

原因有两方面：

1.由于目标的模糊性和众包标注过程，现实中普遍存在盒噪声;

2.目标检测数据集经常涉及目标类验证，因此有噪声的类别标签比不准确的边界框更严重。

由于观察到定位精度显著受到不准确边界框的影响，而分类精度受影响较小，因此，作者提出利用分类作为定位的指导信号。具体而言，提出了一种目标感知多实例学习方法，将每个目标视为实例包。其思想是从目标包中选择准确的实例进行训练，而不是使用不准确的框标注。

本文的主要贡献

1、通过将目标视为一实例包，为学习具有不精确边界框的目标检测器提供了一种新的视图；

2、提出了一种目标感知多实例学习方法，其特点是目标感知实例选择和目标感知实例扩展OA-MIL在现成的目标检测器上具有通用性，并在合成和真实噪声数据集上获得了有前景的结果。

方法

目标感知多实例学习

由于观察到分类在噪声框标注下保持高精度（图2），作者提出利用分类来指导定位。也就是说，作者期望分类分支选择更精确的框进行训练，而不是使用不准确的ground-truth框。这个想法衍生了目标包的概念，其中每个目标都被描述为一个实例包。在目标包的基础上，作者提出了一种目标感知多实例学习方法，该方法具有目标感知实例选择和目标感知实例扩展。