Live in the moment, value every single day...|

ZonHue

园龄:7个月粉丝:0关注:1

监督学习无监督学习自监督学习

监督学习/无监督学习/自监督学习

监督学习(Supervised Learning )

定义是使用标记数据集来训练,以便训练后的算法可以对数据进行分类或准确预测结果。

在监督学习中,每个样本数据都被正确地标记过(i.e. 带有人工标签)。

模型在训练过程中,被一系列 “监督”误差的程序、回馈、校正模型,以便达到在输入给模型为标记输入数据时,输出则十分接近标记的输出数据,即适当的拟合。

监督学习的目标是学习从输入到输出的映射关系

例子:

图像分类

  • 输入:一张猫的图片。
  • 标签:类别“猫”。
  • 模型的任务是学习从图片到类别“猫”的映射。

情感分析

  • 输入:一段文本“这部电影很棒!”
  • 标签:情感“正面”。
  • 模型的任务是学习从文本到情感“正面”的映射。

房价预测

  • 输入:房屋的特征(如面积、位置、房间数等)。
  • 标签:房价。
  • 模型的任务是学习从特征到房价的映射。

无监督学习(Unsupervised Learning)

无监督学习使用无标签的数据进行训练,模型的目标是发现数据中的结构或模式。

没有明确的监督信号,模型需要从数据本身学习

聚类

  • 输入:一组未标注的客户数据(如年龄、消费习惯等)。
  • 任务:将客户分为不同的群组(如高价值客户、低价值客户)。
  • 模型的任务是发现数据中的自然分组。

降维

  • 输入:高维数据(如图像像素、文本词向量)。
  • 任务:将数据降维到低维空间,同时保留重要信息。
  • 例如,使用 PCA(主成分分析)将数据从 100 维降到 2 维。

生成模型

  • 输入:无标签的图像数据。
  • 任务:学习数据的分布,生成新的图像。
  • 例如,GAN(生成对抗网络)可以生成逼真的图像。

自监督学习(Self-Supervised Learning / Self-Training)

自监督学习使用无标签的数据,但通过设计预训练任务,从数据本身生成监督信号

模型的目标是学习数据的通用特征表示,这些特征可以迁移到下游任务中。

主要思路为:通过mask掉真实数据的一部分,然后使用模型进行预测/生成,接着比较预测结果与真实词来计算损失(如交叉熵损失),最后通过优化算法更新模型参数。

图像修复

  • 输入:一张被遮挡的猫的图片。
  • 任务:预测被遮挡的部分。
  • 模型通过比较预测结果与未遮挡的部分来学习。

文本填空(Masked Language Modeling)

  • 输入:一段文本序列,例如 “我喜欢吃___。”
  • 任务:预测下一个词(如“苹果”)。
  • 监督信号:真实的下一词(“苹果”)作为监督信号。

对比学习

  • 输入:同一张图像的不同增强版本(如裁剪、旋转)。
  • 任务:让模型学习到这些增强版本在特征空间中应该接近。
  • 例如,SimCLR 通过对比学习从无标签图像数据中学习特征表示。

本文作者:mercurystraw

本文链接:https://www.cnblogs.com/mercurystraw/p/18685683

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   ZonHue  阅读(15)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起