SIMILAR:现实场景中基于子模块信息度量的主动学习
在过去几年中,主动学习 (AL) 策略已被证明可用于降低标签成本。但是当涉及现实世界的数据集时,当前的方法效果并不理想,现实世界的些数据集存在缺陷和许多特征,使得从中学习具有更大挑战性:
真实世界的数据集场景:(a) 稀有类:数字 5 和 8 很少见;(b) 冗余:数字 0 和 1 是冗余的;© 分布外 (OOD):数字分类中的字母 A、R、B、F。
首先,现实世界的数据集是不平衡的有些类别非常罕见。这种不平衡的一些例子来自医学成像领域;例如,在癌症成像数据集中,癌细胞的图像通常比它们的良性对应物更罕见。另一个例子是在自动驾驶汽车领域,我们希望准确地检测所有物体。但是由于某些情况下的某些对象是罕见的,像下图中黑暗中的行人,一般模型经常无法检测和分类稀有类别。
其次,现实世界的数据有很多冗余。这种冗余在通过从视频中采样帧创建的数据集中更为突出(高速公路上行驶的汽车的镜头或监控摄像头的镜头)。
第三,有分布外(OOD)数据是很常见的,其中一些未标记的数据与手头的任务无关。例如,在医学成像领域,数据集中的一些x射线图像并不是正常获取得到的数据,从而导致分布不均匀。
该论文的工作是解决以下问题:
是否可以有适用于广泛现实场景的单一并且统一的主动学习框架来训练机器学习模型?
论文提出了SIMILAR(一个统一的主动学习框架),并且说可以作为前面讨论的许多现实场景的一站式解决方案。该框架的主要思想是通过适当选择一个查询集Q和一个私有集p,利用子模块信息测量度(SIM:submodular information measures)之间的关系,论文中说其统一性来自于子模块条件互信息(SCMI:submodular conditional mutual informatio)丰富的建模能力。我们从SCMI中得到了子模块互信息(SMI:submodular mutual informatio)和子模块条件增益(SCG:submodular conditional gain)公式,并将它们应用于不同的现实场景中。
完整文章:https://www.overfit.cn/post/c65a3ab6a27640119a661167f13395fc
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)