理论-SSL0-半监督学习方法(Semi-supervised Learning)的分类
-
根据模型的训练策略划分:
- 直推式学习(Transductive Semi-supervised Learning)
- 无标记数据就是最终要用来测试的数据,学习的目的就是在这些数据上取得最佳泛化能力。
- 归纳式学习(Inductive Semi-supervised Learning)
- 认为待识别样本不能是训练中所用的无标签数据,不能参与到训练过程。
- 直推式学习(Transductive Semi-supervised Learning)
这两者的区别在于:预测样本是不是在训练的时候已经见(用)过。通常直推式比归纳式的效果要好,因为归纳式还需要从训练泛化到测试。
-
根据无标签数据的使用方法划分:
- 被动学习
- 随机选取无标签样本并打标,侧重于学习探索无标注数据中的模型已知部分。
- 主动学习
- 对无标签数据筛选后打标,相比于被动学习,在获取相当性能的情况下只需要更少但更有信息量的标注样本;侧重尝试挖掘未知的富有信息量的数据。
- 被动学习
-
按照模型的训练方法划分:
-
Self-training methods(自训练方法)
-
训练过程:首先要用一个带有标签的小数据集训练分类器;然后使用分类器对未标记的数据进行分类; 之后将最可靠的未标记点与预测标记一起添加到训练集中, 分类器被重新训练。 重复此过程,直到程序满足终止条件为止, 然后在输出中给出最终的分类器。(自训练首先将原始标注数据作为训练集训练得到初步模型,再用该模型对无标注数据进行推断,将那些高置信度的预测样本作为伪真值(Pseudo Ground Truth)加入训练集,再重复训练,因此自训练也可叫做自我学习(Self teaching)或自助法(Bootstrapping)。)
-
存在的问题:错误标记的样本会传播到下一个迭代中,从而对结果产生很大影响。
-
解决方法:在每次迭代中都需要自训练程序来找到一个准则(度量)以选择一组高度可靠的预测 。如果预测的可靠性下降到阈值以下,则尝试通过“取消学习”未标记的点来避免标签不正确对分类结果的影响。
-
-
Co-training methods(协同训练方法)
- 该方法基于视图充分冗余和条件独立这两个假设。首先在有同一标记的样本的两个视图上训练不同的分类器(比如对于一个电影:有画面、声音、字幕三种属性集,对应的就有三个视图;对于图片,可以是两个角度拍摄出的同一个对象的不同照片),并利用这两个分类器进行未标记样本的标签预测;之后将其中置信值最高的样本加入到另一个分类器中交替进行训练(协同训练),并迭代进行下去。
- 协同训练可以很好地利用多视图的“相容互补性”。假设数据拥有两个充分且条件独立的视图(“充分”是指每个视图都包含足以产生最优学习器的信息,“条件独立”则是指在给的类别标记条件下两个视图相互独立), 在此情况下,可以用一个简单的办法来利用未标记数据:首先在每个视图上基于有标签样本分别训练出一个分类器,然后让每个分类器分别去挑选自己“最有把握的”未标记样本赋予伪标记,并将伪标记样本提供给另一个分类器作为新增的有标记样本用于训练更新…这个“互相学习、共同进步”的过程不断迭代进行,直到两个分类器都不再发生变化,或达到预先设定的迭代轮次为止。
- 协同训练(Co-training)基于三大假设:(1)特征可划分为两大子集;(2)每个特征子集足够训练好的分类器“3)给定类别前提下两个特征子集条件独立。协同训练通过引入无标注的数据来缩小变形空间从而达到提升半监督学习算法性能的目的。
-
Semi-supervised boosting(半监督提升)
- Boosting是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器,使用基分类器生成强分类器。
- Semi-supervised on-line boosting for robust tracking
-
Generative methods(生成式方法)
- 生成式方法是一种基于统计学习的方法,它认为训练样本和对应的类别标签是由某个概率分布生成。已知类先验分布𝑝(𝑦)和类条件分布𝑝(𝑥|𝑦),重复取样𝑦 ∼ 𝑝(𝑦)和𝑥 ∼ 𝑝(𝑥|𝑦),从这些分布中生成有类标签的样本𝐿和无类标签的样本𝑈。根据贝叶斯公式,将后验概率最大的类别分配给无标签样本。之后使用带有标签的𝐿和𝑈更新概率分布的参数,迭代迭代以上过程。
-
Margin-based methods (基于边缘距离的方法)
- 一种基于SVM的方法。
-
Graph-basde methods (基于图的方法)
- 基于图的半监督学习方法又叫做基于流形学习的半监督学习。主要是根据有标记样本和无标记样本间之间的关系,来建立一个相互连接的图,并假设图上样本点平滑。图中的顶点表示有标记或者无标记的样本,顶点之间的边的权值反映了样本之间的相似程度。之后再根据具体的目标来确定优化问题,并进行求解。
-
行动是治愈恐惧的良药,而犹豫拖延将不断滋养恐惧。