原论文链接:https://academic.oup.com/nsr/article/5/1/44/4093912
Abstract
文章分类讨论了三种不同类型的弱监督:incomplete supervision, inexact supervision, 和 inaccurate supervision.
Incomplete Supervision:
一小部分训练集是有label的,另外还有一大堆没有label的数据。
主要有两类方法:active learning 和 semi-supervised learning.
- active learning: 有人为干预,假设可以query to get ground-truth of selected unlabeled instances
- semi-supervised learning: 无人为干预,企图从unlabeled data中自动提取一些信息
active learning:
semi-supervised learning:
知乎上有一篇写得很好的总结:https://zhuanlan.zhihu.com/p/32922326
Two basic assumptions:
- clustering assumption: 数据有内在的固有聚类结构,在同一个cluster的instances类别相同
- manifold assumption: 数据分布在流形上,相邻的instances有相同的prediction
Four major categories of semisupervised learning:
Generative methods
假设有标签和无标签的数据均有同一个固有模型产生,因此无标签数据的label可以看成是模型的一些缺失参数,可用EM等算法估计得到
Graph-based methods
Low-density separation methods
Disagreement-based methods
Inexact Supervision