人工智能的概念(只阐述概念问题或定义)

监督学习

监督学习利用大量的标注数据来训练模型,模型的预测和数据的真实标签产生损失后进行反向传播(计算梯度、更新参数),通过不断的学习,最终可以获得识别新样本的能力。

自监督学习

(Self-Supervised Learning)

是无监督学习的一种,旨在对于无标签数据,通过设计辅助任务(pretext)来挖掘数据自身的表征特征作为监督信号,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。(也就是说自监督学习的监督信息不是人工标注的,而是算法在大规模无监督数据中自动构造监督信息,来进行监督学习或训练。因此,大多数时候,我们称之为无监督预训练方法或无监督学习方法,严格上讲,他应该叫自监督学习)

自监督学习存在的三个挑战
1. 对于大量的无标签数据,如何进行表征/表示学习?
2. 从数据的本身出发,如何设计有效的辅助任务(pretext)?
3. 对于自监督学习到的表征,如何来评测它的有效性?

详细参考自监督学习汇总:

自监督学习的方法主要可以分为 3 类:

  1. 基于上下文(Context based)
  2. 基于时序(Temporal Based)
  3. 基于对比(Contrastive Based

few-shot learning=FSL(少样本学习)

参考:

  1. An Introduction to Few-Shot Learning——讲解的超级好!!(侧重概念讲解,通俗)
  2. Everything you need to know about Few-Shot Learning——侧重具体实现,有局部代码(看完后发现,两个资料写的都非常好,这个方法部分更具体)

为什么有少样本学习(FSL)

传统的监督学习方法使用大量的标记数据进行训练。此外,测试集包含的数据样本不仅与训练集属于同一类别,而且必须来自相似的统计分布。例如,由手机拍摄的图像创建的数据集在统计上与由高级数码单反相机拍摄的图像创建的数据集不同。这通常称为域转移。

Few-Shot Learning 通过以下方式缓解了上述问题:

  1. 训练模型不需要大量昂贵的标记数据,因为顾名思义,目标是仅使用少量标记样本进行泛化。
  2. 由于预先训练的模型(在广泛的数据集上训练过的模型,例如在 ImageNet 上训练的模型)可以扩展到新的数据类别,因此无需从头开始重新训练模型,从而节省了大量的计算量力量。
  3. 使用 FSL,模型还可以通过仅接触有限的先验信息来了解罕见的数据类别。例如,来自濒危或新发现的动植物物种的数据很少,这足以训练 FSL 模型。
  4. 即使模型已经使用统计上不同的数据分布进行了预训练,只要支持集中的数据和查询集中的数据是一致的,它也可以用于扩展到其他数据域。

少样本学习框架:

内容简化

  1. few shot learning的目的在于学会学习,是利用对象之间的相似性和差异
  2. 少样本学习中的术语:

k-way n-shot:“ K -way”表示预训练模型需要泛化“ K ”个新类别。“ K ”值越高意味着任务越困难。“ N ”-shot 定义了“ K ”个新类别中每个类别的支持集中可用的标记样本数量。“ N ”值越低,小样本任务就会变得更加困难(即,精度较低),因为可用于得出推论的支持信息较少。
支持集:支持集由每个新数据类别的少数标记样本组成,预训练模型将使用这些样本来概括这些新类别。
查询集:查询集由来自新旧数据类别的样本组成,模型需要使用从支持集中获得的先前知识和信息对其进行概括。

  1. 少样本预测精度问题:

As the number of ways increases, the prediction accuracy drops.
As the number of shots increases, the prediction accuracy improves.

少样本学习背后的基本思想

基本思想是训练一个预测相似性的函数

用sim(x ,x')表示相似度函数,它测量两个样本 x 和 x' 之间的相似性。如果两个样本相同,则相似度函数返回1。即sim(x, x')=1,如果样本不同,则返回 0。即 sim(x, x')=0
训练后,学习到的相似度函数可用于对未见过的查询进行预测。我们可以使用相似度函数将查询与支持集中的每个样本进行比较并计算相似度分数。然后,找到相似度得分最高的样本并将其用作预测。

posted @ 2024-02-29 08:21  AlexanderOscar  阅读(11)  评论(0编辑  收藏  举报