半监督学习——充分利用嘈杂的数据
半监督学习——充分利用嘈杂的数据
在这篇文章中,我强调了 半监督学习 ,它背后的不同技术,并通过谈论走得更远 主动学习 .
半监督学习 是一种机器学习,其中给学习算法提供少量训练示例以及大量未标记示例。半监督学习的目标是从训练数据中学习模型,以及通过使用未标记的数据来提高模型的准确性。
有许多方法可以执行半监督学习。一种常见的方法是使用无监督学习算法从未标记的数据中学习模型,然后使用学习到的模型来提高监督学习算法的准确性。另一种方法是使用 强化学习算法 从未标记的数据中学习策略,然后使用学习到的策略来提高监督学习算法的准确性。
半监督学习是一种很有前途的机器学习方法,因为它可以用很少的额外数据提高模型的准确性。
让我们进一步探讨这个主题……
为什么选择半监督学习?
现实世界的问题由许多缺少数据的情况组成,包括训练模型所需的标签。我们如何才能解决这个问题并能够正确解决问题?
让个人或专家手动标记数据 昂贵的 和 耗时的 .那么,解决方案是什么?
值得注意的是,根据 伟大的调查 或范恩格伦和胡斯 半监督学习的大部分研究都集中在分类上 .因此,该领域应用的大多数方法都是针对分类问题的。这显然不是问题,因为现实世界的场景充满了分类问题。
半监督分类方法试图利用未标记的数据点来构建一个学习器,其性能超过仅使用标记数据时获得的学习器的性能(Van Engelen 和 Hoos)。
他们强调了定义当今最半监督算法的 3 个假设:
- 这 平滑假设 :输入上的两个接近样本 x1 和 x2 应该具有相同的输出 (y)。
- 这 低密度假设 :类之间的决策边界以输入空间中的低密度区域为特征。
- 这 歧管假设 :同一低维流形(低维子结构)上的数据点应具有相同的标签。
基于这些假设,算法应该能够根据已标记的数据点对未标记的数据点进行分类。然而,这种完美的场景可能会发生, 当且仅当不同的问题类别在标记的数据点中得到很好的表示 :
如您所见,由绿色矩形组成的类别代表性不足,导致半监督学习模型无法正确区分类别
因此,重要的是在标记数据和未标记数据之间划分数据集,以获得最准确和最有效的模型。这并不总是可行的,因为数据集在一个类上缺少太多的点,我们将在本文后面看到克服这个问题的方法。
现在让我们概述一下最著名的半监督算法/技术……
半监督学习算法
首先,对这些算法做了一个主要区别:
归纳法与 换能器 方法
尽管 归纳法 正在寻求建立一个分类模型,旨在从未标记的数据点中获得预测, 转导方法 直接进行预测,而不是尝试使用分类器。
就职 可以与监督学习相关联,而转导不是这种情况,因为它使用所有数据集(训练和测试)来预测标签。
查看 这篇很棒的文章 从 维吉尼·马拉瓦拉奇 如果您对这两种方法的区别感兴趣。
让我们深入了解半监督学习算法的 4 种主要方法……
1 - 包装方法 (归纳法)
背后的想法 包装方法 是要有一个 ** 训练步骤** 其中分类器从标记的数据点和 ** 伪标记步骤 ** 其中前一个分类器用于从未标记的数据中获取预测。然后,验证新标签(预测)的准确性,并将最准确的标签(基于置信度)添加到训练数据集中。重复这些步骤,直到模型性能最高。
我们可以区分两种包装方法:
- 自我训练 :包括在标记数据上训练任何类型的唯一分类器,并使用它来伪标记未标记的数据点。这是最简单的包装方法。
- 联合培训 :在标记数据上训练两个或多个分类器,并根据它们的预测,将伪标记添加到训练数据点以进行下一次迭代。主要的补充是,不同类型的各种分类器应该有更精确的信息,并且倾向于通过结合他们最自信的预测来更好地概括。
另一种包装方法是基于 集成学习 ( 助推 和 装袋 ) 并通过让多个分类器对来自标记数据点的随机样本进行学习来扩展协同训练。
2 - 无监督预处理(归纳法)
这种类型的方法基本上是使用 无监督技术 和 算法 从所有数据中提取信息以改进分类器的未来训练。它是无监督技术和监督技术的混合体。
作为例子,我们发现 特征提取 甚至 聚类 在无监督学习阶段。
3 — 本质上的半监督方法(归纳法)
这些方法的想法是推断一个函数,该函数可以根据我们之前介绍的低密度假设等假设对数据点(标记和未标记)进行分类。
以下是三种主要的内在半监督方法的列表:
- 最大边距方法(低密度分离) : 算法基于 低密度假设 之前描述的所有数据点,尤其是未标记的数据点都可以确定低密度区域。因此,分类器能够根据其在输入空间中的位置来预测新数据点。
这些方法的一个例子是 半监督 SVM . - 歧管 :数据点因其提供的信息而以其低维流形为特征的技术。因此,同一流形上的 2 个点应该具有相同的标签,这就是 歧管假设 .流形方法由两种技术组成: 流形正则化 和 流形逼近 .
- 生成模型 : 试图了解数据是如何生成的方法。大多数已知的技术是 混合模型 和 生成对抗网络 (甘)。
4 - 基于图形的方法(转导方法)
这是唯一的转换类方法,因此它不使用任何分类器来解决问题。
转导方法通常在所有数据点上定义一个图,包括标记的和未标记的,用可能的加权边对数据点的成对相似性进行编码。 (朱小金, 带图的半监督学习 )
为了评估算法,一个 目标函数被优化 通过查看标记的数据是否正确分类以及相似的数据点是否在正确的位置。
一般分为三个步骤: 图表创建 , 图权重 g 和 推理 .如果您对这些方法的过程感兴趣,您可以找到对第 7.1 部分的很好解释 来自天使 和 霍斯的 纸 .
现在我们已经描述了一些最先进的半监督学习算法,让我们通过讨论什么是总结 主动学习 …
主动学习
主动学习是半监督学习的扩展,包括确定和选择 高潜力未标记数据 这将使模型更有效率。一旦确定,这些数据点就会被标记,分类器就会获得准确性。
这种技术与我们之前看到的方法相结合,最大限度地减少了昂贵且耗时的标记工作。
如何检测信息丰富的未标记数据点?
人们可以注意到三种不同的方法来检测这些数据点:
- 不确定 :标记模型对其预测最不自信的样本。
- 种类 / 多样性 :选择尽可能多样化的样本以最好地覆盖整个输入空间。
- 模型改进 :选择将提高模型性能的样本(较低的损失函数)。
如果你对主动学习感兴趣,可以看看 这篇好论文 从 伯尔定居点 .
结论
半监督学习 在数据缺失和嘈杂的世界中是必不可少的。能够充分利用任何数据至关重要,即使它没有针对我们寻求解决的问题进行标记。
存在许多方法并使这成为可能,例如 包装方法 , 无监督预处理 , 本质上半 - 监督方法 或者 基于图的方法。
关于主题的一个有趣的开场白 监管薄弱 以及这如何挑战半监督学习算法。
感谢您阅读本文,希望您喜欢它并学到很多东西!如果您对数据科学和机器学习感兴趣,请查看我的文章 这里 .
资源:
[
半监督学习文献调查
我们在本文中回顾了一些关于半监督学习的文献。传统分类器需要标记数据……
minds.wisconsin.edu
](https://minds.wisconsin.edu/handle/1793/60444)
[
半监督学习调查——机器学习
半监督学习是机器学习的一个分支,涉及使用标记和未标记的数据来......
链接.springer.com
](https://link.springer.com/article/10.1007/s10994-019-05855-6)
[
GitHub - yassouali/awesome-semi-supervised-learning: 最新和精选的很棒的列表...
精选的半监督学习资源列表。灵感来自令人敬畏的深度视觉……
github.com
](https://github.com/yassouali/awesome-semi-supervised-learning)
[
归纳学习与转导学习
关于归纳和转导学习方法的简单讨论
向datascience.com
](https://towardsdatascience.com/inductive-vs-transductive-learning-e608e786f7d)
[
Mlearning.ai 提交建议
如何成为 Mlearning.ai 上的作家
媒体网
](/mlearning-ai/mlearning-ai-submission-suggestions-b51e2b130bfb)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!