李宏毅机器学习课程笔记-10.1半监督学习简介
有监督学习(Supervised Learning)
训练集数据为\(\{ (x^r,\ \hat y^r) \}_{r=1}^R\),其中每组数据包括算法的输入与输出(标签)。
半监督学习(Semi-supervised Learning)
训练集数据为\(\{ (x^r,\ \hat y^r) \}_{r=1}^R+\{ x^u\}_{u=R+1}^{U+R}\),即其中部分数据有标签而大量数据没有标签(\(U>>R\))。
半监督学习可以分为以下2种情况
-
Transductive Learning
unlabeled data is the testing data,只使用testing data中的feature,并没有使用testing data中的label,所以并没有cheating。
适用于已知testing data的情况,比如kaggle比赛。
-
Inductive Learning
unlabeled data is not the testing data,完全不使用testing data。
适用于testing data未知的情况,这是大多数情况。
为什么需要半监督学习
其实缺的并不是数据,缺少的是有标签的数据。利用这些大量的没有标签的数据进行学习,这是非常有价值的。
为什么半监督学习有用
The distribution of the unlabeled data tell us something:无标注数据的分布可以告诉我们一些东西
半监督学习往往伴随着假设,而该假设的合理与否决定了结果的好坏程度。如上图所示,在猫狗图片分类中一只狗被认为是一只猫,这很可能是由于这2张图片的背景都是绿色,因此假设的合理性至关重要。
Github(github.com):@chouxianyu
Github Pages(github.io):@臭咸鱼
知乎(zhihu.com):@臭咸鱼
博客园(cnblogs.com):@臭咸鱼
B站(bilibili.com):@绝版臭咸鱼
微信公众号:@臭咸鱼
转载请注明出处,欢迎讨论和交流!