半监督学习文献阅读

一、半监督学习的基本思想

半监督学习的核心思想是利用隐藏在大量无标签样本中的数据分布信息来提升仅使用少量有标签样本时的学习性能。突破了传统方法只考虑一种样本类型的局限,综合利用有标签与无标签样本。

其优势在于,随着大数据时代的来临,数据库中的数据呈现指数增长,获取大量无标记样本相当容易,而获取大量有标记样本则困难得多,且人工标注需要耗费大量的人力和物力。同时很多任务很难获得如全部真实标签这样的强监督信息。而如果只使用少量的有标记样本进行训练,往往导致学习器泛化性能低下,且浪费大量的无标记样本数据资源。半监督学习在少量样本标签的引导下,能够充分利用大量无标签样本提高学习性能,避免了数据资源的浪费,同时解决了有标签样本较少时监督学习方法泛化能力不强和缺少样本标签引导时无监督学习方法不准确的问题。

二、结合前面所学知识简述半监督学习有哪些策略

1、半监督分类 

是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签取有限离散值。

、半监督回归 

半监督分类主要分为协同训练的半监督回归和基于流形的半监督回归两类

协同训练主要基于三个假设:

(1)数据集的每个示例都可以分为两个不完全相关的不同视图, 这意味着可以使用两种不同类型的信息来描述每个实例(冗余视图假设)。

(2)每个视图都可以有效地用于分类(兼容性假设)。

(3)这些视图在给定类标签的情况下是条件独立的(独立性假设). 在这种情况下, 使用标记示例在每个视图中分别训练两个分类器, 并且使用每个算法对未标记数据的最自信的预测结果来增强另一个的训练集。

个人理解:可以近似看为监督学习与非监督学习的叠加

基于流形的半监督回归:

流形假设(Manifold Assumption):将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。

流形假设的主要思想是同一个局部邻域内的样本数据具有相似的性质,因此其标记也应该是相似。这一假设体现了决策函数的局部平滑性。


3、半监督聚类 

监督学习利用的监督信息是样本的类别标签,非监督学习利用的监督信息是样本的成对约束关系。在实际应用中,监督信息会以样本标签和成对约束信息并存的情况,若只利用标签信息或将标签信息转化为成对约束信息时,会削弱监督信息或利用不充分。而半监督聚类的方法,如SC-Kmeans 算法综合利用 Seeds 集和成对约束集引入到 Kmeans 中指导聚类过程,即同时利用样本标签和成对约束信息来进行聚类。


4、半监督降维 

在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束(Pair-Wise Constraints)的结构不变,即在高维空间中满足正约束(Must-Link Constraints)的样例在低维空间中相距很近,在高维空间中满足负约束(Cannot-Link Constraints)的样例在低维空间中距离很远。

三、结合本专业所学知识简述半监督学习的可能应用及其优点

1、在遥感图像识别分类中的应用

在遥感图像的语义分割等任务中,大规模遥感样本集的构建费时费力,同时在实际的遥感地物分类中,可用的高质量样本数量总是较少的,且高质量的样本往往较细碎,因此稀疏样本是遥感图像分类面临的一个重要问题。而半监督学习由于同时考虑了有限的标签样本和海量的无标签样本,可以解决遥感分类中的样本不平衡问题,由此还可以缓解因稀疏样本造成的遥感分类模型的过拟合问题。

个人感想:

样本不平衡问题,广泛存在于所有监督学习的分类问题中。关于这个问题的具体定义:数据集中,每个类别下的样本数目相差很大(数量级上的差距)。样本不平衡问题的可怕之处在于,往往模型的参数,训练,数据,特征都是正确的,但准确率仍然很低。在机器学习中,可采用扩大数据集, 数据集重采样,人工产生数据样本等方法解决样本不平衡问题。在深度学习任务中,可以通过使用Focal Loss来解决此类问题。而半监督学习由于同时考虑了有限的标签样本和海量的无标签样本,是解决遥感分类中的样本不平衡问题的一个途径。

半监督学习的结果不能简单的直接使用监督学习的指标来评价。因为大部分情况下验证集数据的选取其实都是来源于最初的有标签的数据,所以训练集的问题,验证集一般同样存在,比如,量过少(缺乏代表性,具有偶然性),分布不均衡。这样的话,使用验证集来评价半监督学习的结果本身是存在问题的。个人觉得半监督学习结果的难以评估也是制约其发展的一个重要原因。

posted @ 2022-05-17 13:37  Weltㅤ  阅读(120)  评论(0编辑  收藏  举报