5分钟NLP:文本分类任务中的数据增强技术

为什么要增加训练数据

机器学习中的数据增强主要通过人工构建数据,增加训练集的大小使模型达到更好的泛化特性。这是一个在机器学习学科中进行的广泛研究的研究领域。

数据增强的主要作用如下:

  • 增加了模型的概括功能;
  • 对于不平衡数据集很有用;
  • 可以最大程度地减少标注工作;
  • 提高了针对对抗性攻击的健壮性;

一般情况下文本分类中的数据增强会产生更好的模型,因为模型在训练过程中会看到更多的语言模式。但是现在这种数据增强的工作是通过在大型预训练语言模型上的迁移学习来管理的,因为这些模型对于我们使用的各种转换已经不敏感了。事实上,数据增强方法只有在创造出以前从未见过的新的语言模式时才会有益。

文本分类中数据增强方法的分类

本文整理了用于文本分类的数据增强方法,来自论文《 A Survey on Data Augmentation for Text Classification》。一般情况下我们都会结合几种数据增强方法来实现更多样化的实例。

一般情况下文本有四种类型的数据增强:字符级、单词级、短语和句子级、文档级。

完整文章:

https://avoid.overfit.cn/post/91b32a0b21ea4444834b1873027b00da

posted @ 2022-05-05 11:02  deephub  阅读(176)  评论(0编辑  收藏  举报