如何使用没有标签的数据？或者如何用没有标签的数据提升模型效果？

要用到无标签的数据就要给无标签的数据造一个监督训练的目标，常用的造目标的方法：

Pseudo-labeling 可以用现有的数据训练模型，在用模型跑无标签的数据得到一个假的label，用无标签数据和假的label 帮助训练模型，最后再用有label数据finetune
data augmentation 通过对数据做变换，得到和原始数据相近的数据（simCLR），用一致性，或一些其他的指标让网络学习对数据的表征能力；图像中常见的data augmentation （crop/mixup/rotate/color distorsion/ blur/），语音中常见的变换（调节语速/pitch/gain/加噪声/mixup/spec augment）；还有一些用adversarial 的方式生成新的数据（VAT）
用数据本身作为label，如nlp中bert 用denoising 的方式或用前一段信息作为特征，用后面的信息作为预测label 等

posted @ 2020-03-04 18:53 hahahaf 阅读(802) 评论(0) 编辑收藏举报

刷新页面返回顶部