阅读笔记 Active learning from Crowds with unsure option
这是 Tang ke 老师的文章。一篇写得非常好的文章。这篇paper 的 idea 和 算法 都很简单,但其有着不小的贡献,主要是其提出了 ALCU 这一框架。另外,其Paper 中用到了各种小的trick 。另外,实验部分很充分,很 convincing 为这篇paper 增色不少。
个人觉得有收获的点很多
1. Active Learning 和众包的关系:Active Learning 最终目的是要学一个分类模型,而现在一般众包干的事情是提供标记,所以Active Learning 一般可以利用众包,而众包无法利用active leanring。
2、这篇文章主要是在原来的基础上加上了工人可以提供 unsure option,也即 Active learning from crowds with unsure option,通过 unsure option 可以不强制不确定的工人提供标记。这更加逼近original Active learning,专家提供标记(标记昂贵且精度高,接近于 oracle)
3.这篇文章用了所谓的2个 SVM 模型,一个作为最终的二分类模型,一个作为工人是否会提供 unsure (negative) 的二分类模型。但工人是否提供 unsure 的这个二分类模型用于选择工人,当有很多工人时,这相当于避免了选取可能会给出 unsure 的工人,但是还是无法保证 选到的那个工人给出的标记的精度很高,没有对工人的精度的衡量,只判断工人是不是 unsure 。
4. SVM 模型作为了一个二值分类器,似乎公式不太对,没有把 label 写进去。
5.其在 related work 中提到 yan yan 2011 的工作看上去好,但是引入很难的中间过程,这与 vipnik 相冲突
6. Active learning 部分 用了最简单的 uncertainty sampling 作为询问策略,定义了一个奖励函数 实际上就是 (1/2-p)^2,其中 p 是通过 SVM 的输出嵌套上一个 logistic function 作为 后验概率。这个值的实际大小意义不大,但其排序大小可能还是有用的,相当于 靠近分类边界的先被挑选出来。
7. 这篇文章有自相矛盾的地方,文章通篇阐述 给 labeler 提供 unsure option 可以带来好处。但是实际的算法 ALUC-SVM 中选择 labeler 时,假定lablers 的数量足够多,且$g_t(x)$ 足够好,由于只选择一个最大的 $g_t(x)$ 对应的 labeler,则选中的labeler 提供 unsure option 的概率应该很小才对。或者说,$g_t(x)$ 能不能学的出来是个大问题。
另有一篇把 unsure option 扩展到 Crowdsourcing 的文章。