园龄：7个月粉丝：0 关注：1

监督学习无监督学习自监督学习

监督学习/无监督学习/自监督学习

监督学习（Supervised Learning ）

定义是使用标记数据集来训练，以便训练后的算法可以对数据进行分类或准确预测结果。

在监督学习中，每个样本数据都被正确地标记过（i.e. 带有人工标签）。

模型在训练过程中，被一系列 “监督”误差的程序、回馈、校正模型，以便达到在输入给模型为标记输入数据时，输出则十分接近标记的输出数据，即适当的拟合。

监督学习的目标是学习从输入到输出的映射关系。

例子：

图像分类

输入：一张猫的图片。
标签：类别“猫”。
模型的任务是学习从图片到类别“猫”的映射。

情感分析：

输入：一段文本“这部电影很棒！”
标签：情感“正面”。
模型的任务是学习从文本到情感“正面”的映射。

房价预测：

输入：房屋的特征（如面积、位置、房间数等）。
标签：房价。
模型的任务是学习从特征到房价的映射。

无监督学习（Unsupervised Learning）

无监督学习使用无标签的数据进行训练，模型的目标是发现数据中的结构或模式。

没有明确的监督信号，模型需要从数据本身学习。

聚类：

输入：一组未标注的客户数据（如年龄、消费习惯等）。
任务：将客户分为不同的群组（如高价值客户、低价值客户）。
模型的任务是发现数据中的自然分组。

降维：

输入：高维数据（如图像像素、文本词向量）。
任务：将数据降维到低维空间，同时保留重要信息。
例如，使用 PCA（主成分分析）将数据从 100 维降到 2 维。

生成模型：

输入：无标签的图像数据。
任务：学习数据的分布，生成新的图像。
例如，GAN（生成对抗网络）可以生成逼真的图像。

自监督学习（Self-Supervised Learning / Self-Training）

自监督学习使用无标签的数据，但通过设计预训练任务，从数据本身生成监督信号。

模型的目标是学习数据的通用特征表示，这些特征可以迁移到下游任务中。

主要思路为：通过mask掉真实数据的一部分，然后使用模型进行预测/生成，接着比较预测结果与真实词来计算损失（如交叉熵损失），最后通过优化算法更新模型参数。

图像修复：

输入：一张被遮挡的猫的图片。
任务：预测被遮挡的部分。
模型通过比较预测结果与未遮挡的部分来学习。

文本填空（Masked Language Modeling）：

输入：一段文本序列，例如 “我喜欢吃___。”
任务：预测下一个词（如“苹果”）。
监督信号：真实的下一词（“苹果”）作为监督信号。

对比学习：

输入：同一张图像的不同增强版本（如裁剪、旋转）。
任务：让模型学习到这些增强版本在特征空间中应该接近。
例如，SimCLR 通过对比学习从无标签图像数据中学习特征表示。

上一篇Transformer 学习与解读

下一篇远程服务器使用本地代理的方法

本文作者：mercurystraw

本文链接：https://www.cnblogs.com/mercurystraw/p/18685683

posted @ 2025-01-22 14:00 ZonHue 阅读(15) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

mercurystraw

监督学习无监督学习自监督学习

监督学习/无监督学习/自监督学习

监督学习（Supervised Learning ）

无监督学习（Unsupervised Learning）

自监督学习（Self-Supervised Learning / Self-Training）

公告

搜索

常用链接

随笔分类

随笔档案

相册

阅读排行榜