半监督(Semi-supervised learning)

1.监督需要人工标记的数据

2.无监督不需要任何标记的数据,不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类

3.半监督学习利用少量有标签的数据和大量无标签的数据来训练网络

 

一、半监督学习可以分为:直推半监督学习、归纳半监督学习

(1)直推半监督学习

直推半监督学习(Semi-supervised Learning)只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签
(2)归纳半监督学习
归纳半监督学习(Semi-supervised Learning)处理整个样本空间中所有给定和未知的样例,同时利用训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例一起进行训练,不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签。(?)

 

归纳半监督学习假定训练数据中的未标记样本并非待测的数据,而直推半监督学习则假定学习过程中所考虑的未标记样本恰是待预测数据,

学习的目的就是在这些未标记样本上获得最优泛化性能。

 

二、在半监督学习中有三个常用的基本假设来建立预测样例和学习目标之间的关系,有以下三个:

(1)平滑假设(Smoothness Assumption):位于稠密数据区域的两个距离很近的样例的类标签相似,也就是说,当两个样例被稠密数据区域中的边连接时,它们在很大的概率下有相同的类标签;相反地,当两个样例被稀疏数据区域分开时,它们的类标签趋于不同。

(2)聚类假设(Cluster Assumption):当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签。这个假设的等价定义为低密度分离假设(Low Sensity Separation Assumption),即分类决策边界应该穿过稀疏数据区域,而避免将稠密数据区域的样例分到决策边界两侧。

(3)流形假设(Manifold Assumption):将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。

posted @ 2022-08-13 20:33  Tomorrow1126  阅读(1028)  评论(0编辑  收藏  举报