SIMILAR:现实场景中基于子模块信息度量的主动学习

在过去几年中,主动学习 (AL) 策略已被证明可用于降低标签成本。但是当涉及现实世界的数据集时,当前的方法效果并不理想,现实世界的些数据集存在缺陷和许多特征,使得从中学习具有更大挑战性:

真实世界的数据集场景:(a) 稀有类:数字 5 和 8 很少见;(b) 冗余:数字 0 和 1 是冗余的;© 分布外 (OOD):数字分类中的字母 A、R、B、F。

首先,现实世界的数据集是不平衡的有些类别非常罕见。这种不平衡的一些例子来自医学成像领域;例如,在癌症成像数据集中,癌细胞的图像通常比它们的良性对应物更罕见。另一个例子是在自动驾驶汽车领域,我们希望准确地检测所有物体。但是由于某些情况下的某些对象是罕见的,像下图中黑暗中的行人,一般模型经常无法检测和分类稀有类别。

其次,现实世界的数据有很多冗余。这种冗余在通过从视频中采样帧创建的数据集中更为突出(高速公路上行驶的汽车的镜头或监控摄像头的镜头)。

第三,有分布外(OOD)数据是很常见的,其中一些未标记的数据与手头的任务无关。例如,在医学成像领域,数据集中的一些x射线图像并不是正常获取得到的数据,从而导致分布不均匀。

该论文的工作是解决以下问题:

是否可以有适用于广泛现实场景的单一并且统一的主动学习框架来训练机器学习模型?

论文提出了SIMILAR(一个统一的主动学习框架),并且说可以作为前面讨论的许多现实场景的一站式解决方案。该框架的主要思想是通过适当选择一个查询集Q和一个私有集p,利用子模块信息测量度(SIM:submodular information measures)之间的关系,论文中说其统一性来自于子模块条件互信息(SCMI:submodular conditional mutual informatio)丰富的建模能力。我们从SCMI中得到了子模块互信息(SMI:submodular mutual informatio)和子模块条件增益(SCG:submodular conditional gain)公式,并将它们应用于不同的现实场景中。

 

完整文章:https://www.overfit.cn/post/c65a3ab6a27640119a661167f13395fc

posted @ 2021-12-10 10:08  deephub  阅读(59)  评论(0编辑  收藏  举报