主动学习和半监督学习 - 调研总结
1|0作者声明
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:凤⭐尘 》》https://www.cnblogs.com/phoenixash/
2|0前言
我的第一篇半监督论文(投了篇ccf b的trans),因为第二次小修没改好,第三次小修审稿人在最后一条意见中问了一个personal question:
所以有了这么一篇关于主动学习的调研,如有问题,欢迎交流、批评、指正!
3|0什么是主动学习?
在2009年的这篇综述 Active learning literature survey(2022年引用6000+)中有这一一段解释:
主动学习(Active Learning)的大致思路就是:通过机器学习的方法获取到那些比较“难”分类的样本数据,让人工再次确认和审核,然后将人工标注得到的数据再次使用有监督学习模型或者半监督学习模型进行训练,逐步提升模型的效果,将人工经验融入机器学习的模型中。
可以看到主动学习侧重于:挖掘难例样本和人工标注或再次标注(注意这里的数据可以是标注的和未标注的)
形象地例子:
4|0和半监督学习的异同
半监督学习:属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。半监督学习主要考虑使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
主动学习和半监督学习的相同之处:
二者都利用了有标注数据和无标注数据来提高模型的学习能力。
主动学习和半监督学习的差异之处:
主动学习侧重于寻找尽可能少的难例,在利用未标注数据的时候,是从未标注数据中找到最容易判断错误的样例来交由专家进行标注,这个过程是一个筛选差数据的过程,也是一个互动交互的过程,引入了额外的专家的知识。
半监督学习侧重于寻找尽可能多的好样本,尤其是对于自学习模型,对于未标注数据而言,是选择最不容易判断错误的样例来加入到已标注数据中,这个过程,是一个自动的过程,是筛选最好的数据的过程,然后不需要互动,不需要人工干预,基于自身对于未标记数据加以利用,来提高学习模型的泛化性能。
5|0展望
主动学习和半监督学习存在一定的相似之处,但他们本质上是两种不同的探索和利用样本的方法。近些年也出现很多将两者结合的工作如 BoostMIS,因此基于两者的共通之处进行探索和改进仍然具备一定的潜力。
6|0参考:
Settles B. Active learning literature survey[J]. 2009.
Zhang, Wenqiao, et al. "BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive Pseudo Labeling and Informative Active Annotation."arXiv preprint arXiv:2203.02533(2022).
https://zhuanlan.zhihu.com/p/239756522
https://blog.csdn.net/angela2016/article/details/84290703
https://baike.baidu.com/item/半监督学习/9075473
__EOF__
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!