2018 年 9月 23 日随笔档案 - 炼己者

2018年9月23日

摘要：本文主要讲述的是基于自训练的半监督学习算法做文本分类，自训练算法是半监督学习中比较常见的方法之一，但是自训练方法有一个很大的问题，在迭代过程中，如果初始训练样本集中已标注样本的数量过少，则可能会出现错误标注，并通过迭代使错误逐渐被放大，最终导致错误累积。所以我们采用对未标注样本重复标记策略来优化自训练算法。阅读全文

posted @ 2018-09-23 14:41 炼己者阅读(7724) 评论(5) 推荐(2) 编辑

炼己者

NLP公众号：ZhangyhPico

公告