半监督学习 Semi-Supervised-Learning

SSL按照统计学习理论的角度包括直推(Transductive)SSL和归纳(Inductive)SSL两类模式。直推SSL只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签;归纳SSL处理整个样本空间中所有给定和未知的样例,同时利用训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例一起进行训练,不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签。
从不同的学习场景看,SSL可分为四大类:
1)半监督分类(Semi-Supervised Classification):在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺点,其中类标签 取有限离散值 ;
具体的有:
自训练(Self-Training)、直推学习(Transductive Learning)、生成式模型(Generative Model)、基于差异的方法(Disagreement-Based Methods)、生成式方法(Generative Methods)、判别式方法(DiscriminativeMethods)和基于图的方法(Graph-Based Methods)等,
2)半监督回归(Semi-Supervised Regression):在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归器,其中输出 取连续值 ;
具体的主要的半监督回归方法有基于差异的方法和基于流形学习的方法。
3)半监督聚类(Semi-Supervised Clustering):在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方法的精度;
主要的半监督聚类方法有基于距离的方法和大间隔方法。
4)半监督降维(Semi-Supervised Dimensionality Reduction):在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束(Pair-Wise Constraints)的结构不变,即在高维空间中满足正约束(Must-Link Constraints)的样例在低维空间中相距很近,在高维空间中满足负约束(Cannot-Link Constraints)的样例在低维空间中距离很远。
主要的半监督降维方法有基于类标签的方法、基于成对约束的方法及其它方法等。 无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据,而在实际生活中用到的数据却大部分不是无干扰的,通常都比较难以得到纯样本数据。上面谈论的三个基本假设显然是有效的,不过过于简约,这些假设没能把噪声干扰下未标记样本数据分布的不确定性以及它的复杂性充分的考虑全。

posted on 2017-11-22 17:14  WegZumHimmel  阅读(2046)  评论(0编辑  收藏  举报

导航