AEDA:文本分类数据增强【转载以学习、回忆】

在比赛方案中提到了 AEDA这种针对于文本分类的数据增强技术，遂寻文以学习。

来源：CSDN junjian Li

转载链接：https://blog.csdn.net/qq_30129009/article/details/122395160

转载以学习、回忆

论文：

AEDA：AnEasier Data Augmentation Technique for Text Classification

来源于EMNLP 2021

为了让模型由更好的泛化能力，一般需要更多的更加全面的数据集，但是数据的收集和标注是很费事费力的，所以这个时候数据增强技术就很重要。

在NLP领域，EDA（Easy Data Augmentation Techniques for Boosting Performance on TextClassification Tasks，2019）提出了四种简单的数据增强操作，包括：

同义词替换（通过同义词表将句子中的词语进行同义词替换）

随机交换（随机交换句子的两个词语，改变语序）

随即插入（在原始句子中随机插入，句子中某一个词的同义词）

随即删除（随机删除句子中的词语）

目前，也有一些其他的数据增强方法，例如：同义词替换不使用词表，而是使用词向量或者预训练语言模型（自注：？用预训练模型怎么替换同义词？）；

通过在在文本中插入一些符合或者词语，来增加噪声；将句子通过翻译器翻译成另外一种语言再翻译回来的回译手段等。

AEDA Augmentation

该论文所提出的AEDA方法，主要是在原始文本中随机插入一些标点符号，属于增加噪声的一种，主要与EDA论文对标，突出“简单”二字。注意：该方法仅适用于文本分类任务。

Q：插入多少标点符号？

A：从1到三分之一句子长度中，随机选择1个数，作为插入标点符号的个数。

Q：为什么是三分之一的句子长度？

A：每个句子要有标点符号插入，增加句子复杂性，又不想又太多的标点干扰句子的语义信息，并且太多噪声对模型有负面影响。

Q：句子插入标点符号的位置如何选取？

A：随机

Q：标点符号共包含哪些？

A：主要有6种 . ; ? : ! ,

Q：比EDA效果好的理论基础是什么？

A：者认为，EDA方法，如论是同义词替换，还是随机替换、随机插入、随机删除，都改变了原始文本的序列信息；而AEDA方法，只是插入标点符号，对于原始数据的序列信息修改不明显。个人理解，通过词语修改的方法，与原始语义改变可以更加负面；而仅插入一些标点符号，虽然增加了噪声，但是原始文本的语序并没有改变。

下边有代码实现。

posted on 2022-05-18 16:20 nlp如此迷人阅读(350) 评论(0) 收藏举报

刷新页面返回顶部

dongteng

AEDA:文本分类数据增强【转载以学习、回忆】

AEDA Augmentation

导航

公告