AEDA:文本分类数据增强【转载以学习、回忆】

在比赛方案中提到了 AEDA这种针对于文本分类的数据增强技术,遂寻文以学习。

来源:CSDN junjian Li

转载链接:https://blog.csdn.net/qq_30129009/article/details/122395160

转载以学习、回忆

 

论文:

AEDA:AnEasier Data Augmentation Technique for Text Classification

来源于EMNLP 2021

 

为了让模型由更好的泛化能力,一般需要更多的更加全面的数据集,但是数据的收集和标注是很费事费力的,所以这个时候数据增强技术就很重要。

在NLP领域,EDA(Easy Data Augmentation Techniques for Boosting Performance on TextClassification Tasks,2019)提出了四种简单的数据增强操作,包括:

同义词替换(通过同义词表将句子中的词语进行同义词替换)

随机交换(随机交换句子的两个词语,改变语序)

随即插入(在原始句子中随机插入,句子中某一个词的同义词)

随即删除(随机删除句子中的词语)

目前,也有一些其他的数据增强方法,例如:同义词替换不使用词表,而是使用词向量或者预训练语言模型(自注:?用预训练模型怎么替换同义词?);

通过在在文本中插入一些符合或者词语,来增加噪声;将句子通过翻译器翻译成另外一种语言再翻译回来的回译手段等。

 

AEDA Augmentation

该论文所提出的AEDA方法,主要是在原始文本中随机插入一些标点符号,属于增加噪声的一种,主要与EDA论文对标,突出“简单”二字。注意:该方法仅适用于文本分类任务。

Q:插入多少标点符号?

A:从1到三分之一句子长度中,随机选择1个数,作为插入标点符号的个数。

Q:为什么是三分之一的句子长度?

A:每个句子要有标点符号插入,增加句子复杂性,又不想又太多的标点干扰句子的语义信息,并且太多噪声对模型有负面影响。

Q:句子插入标点符号的位置如何选取?

A:随机

Q:标点符号共包含哪些?

A:主要有6种 . ; ? : ! ,

Q:比EDA效果好的理论基础是什么?

A:者认为,EDA方法,如论是同义词替换,还是随机替换、随机插入、随机删除,都改变了原始文本的序列信息;而AEDA方法,只是插入标点符号,对于原始数据的序列信息修改不明显。个人理解,通过词语修改的方法,与原始语义改变可以更加负面;而仅插入一些标点符号,虽然增加了噪声,但是原始文本的语序并没有改变。

 

下边有代码实现。

 

posted on   nlp如此迷人  阅读(298)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示