NLP（二十一）：NLP中的数据增强

与计算机视觉中使用图像进行数据增强不同，NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作，如将图像旋转或将其转换为灰度，并不会改变其语义。语义不变变换的存在使增强成为计算机视觉研究中的一个重要工具。

我很好奇是否有人尝试开发NLP的增强技术，并研究了现有的文献。在这篇文章中，我将分享我对当前用于增加文本数据的方法的发现。

方法

1. 词汇替换

这种方法试图在不改变句子主旨的情况下替换文本中的单词。

基于词典的替换
在这种技术中，我们从句子中随机取出一个单词，并使用同义词词典将其替换为同义词。例如，我们可以使用WordNet的英语词汇数据库来查找同义词，然后执行替换。它是一个手动管理的数据库，其中包含单词之间的关系。

Zhang et al.在其2015年的论文“Character-level Convolutional Networks for Text Classification”中使用了这一技术。Mueller et al.使用了类似的策略来为他们的句子相似模型生成了额外的10K训练样本。NLTK提供了对WordNet的编程接口。你还可以使用TextBlob API。还有一个名为PPDB的数据库，其中包含数百万条词的解释，你可以通过编程的方式下载和访问它们。
基于词向量的替换在这种方法中，我们采用预先训练好的单词嵌入，如Word2Vec、GloVe、FastText、Sent2Vec，并使用嵌入空间中最近的相邻单词替换句子中的某些单词。Jiao et al.在他们的论文“TinyBert”中使用了这种技术，以提高他们的语言模型在下游任务上的泛化能力。Wang et al.使用它来增加学习主题模型所需的tweet。

例如，你可以用三个最相似的单词来替换句子中的单词，并得到文本的三个变体。

使用像Gensim这样的包来访问预先训练好的字向量和获取最近的邻居是很容易的。例如，这里我们通过训练推特上的单词向量找到了单词“awesome”的同义词。

# pip install gensim
import gensim.downloader as api

model = api.load('glove-twitter-25')  
model.most_similar('awesome', topn=5)

你会得到5个最相似的单词和余弦相似度。

[('amazing', 0.9687871932983398),
 ('best', 0.9600659608840942),
 ('fun', 0.9331520795822144),
 ('fantastic', 0.9313924312591553),
 ('perfect', 0.9243415594100952)]

Masked Language Model
像BERT、ROBERTA和ALBERT这样的Transformer模型已经接受了大量的文本训练，使用一种称为“Masked Language Modeling”的预训练，即模型必须根据上下文来预测遮盖的词汇。这可以用来扩充一些文本。例如，我们可以使用一个预训练的BERT模型并屏蔽文本的某些部分。然后，我们使用BERT模型来预测遮蔽掉的token。

因此，我们可以使用mask预测来生成文本的变体。与之前的方法相比，生成的文本在语法上更加连贯，因为模型在进行预测时考虑了上下文。

使用开源库这很容易实现，如Hugging Face的transformers。你可以将你想要替换的token设置为并生成预测。

from transformers import pipeline
nlp = pipeline('fill-mask')
nlp('This is <mask> cool')
[{'score': 0.515411913394928,
  'sequence': '<s> This is pretty cool</s>',
  'token': 1256},
 {'score': 0.1166248694062233,
  'sequence': '<s> This is really cool</s>',
  'token': 269},
 {'score': 0.07387523353099823,
  'sequence': '<s> This is super cool</s>',
  'token': 2422},
 {'score': 0.04272908344864845,
  'sequence': '<s> This is kinda cool</s>',
  'token': 24282},
 {'score': 0.034715913236141205,
  'sequence': '<s> This is very cool</s>',
  'token': 182}]

然而，这种方法的一个问题是，决定要屏蔽文本的哪一部分并不是一件小事。你必须使用启发式的方法来决定掩码，否则生成的文本将不保留原句的含义。

基于TF-IDF的词替换
这种增强方法是由Xie et al.在无监督数据增强论文中提出的。其基本思想是，TF-IDF分数较低的单词不能提供信息，因此可以在不影响句子的ground-truth的情况下替换它们。

要替换的单词是从整个文档中TF-IDF分数较低的整个词汇表中选择的。你可以参考原文中的实现：https://github.com/googresearch/uda/blob/master/text/augmentation/word_level_augment.py。

2. 反向翻译

在这种方法中，我们利用机器翻译来解释文本，同时重新训练含义。Xie et al.使用这种方法来扩充未标注的文本，并在IMDB数据集中学习一个只有20个有标注样本的半监督模型。该方法优于之前的先进模型，该模型训练了25,000个有标注的样本。

反向翻译过程如下：

把一些句子(如英语)翻译成另一种语言，如法语
将法语句子翻译回英语句子。
检查新句子是否与原来的句子不同。如果是，那么我们使用这个新句子作为原始文本的数据增强。
![img](A Visual Survey of Data Augmentation in NLP.assets/nlp-aug-back-translation.png)

你还可以同时使用不同的语言运行反向翻译以生成更多的变体。如下图所示，我们将一个英语句子翻译成三种目标语言：法语、汉语、意大利语，然后再将其翻译回英语。

![img](A Visual Survey of Data Augmentation in NLP.assets/nlp-aug-backtranslation-multi.png)

这项技术也被用在了的Kaggle上的“Toxic Comment Classification Challenge”的第一名解决方案中。获胜者将其用于训练数据增强和测试期间，在测试期间，对英语句子的预测概率以及使用三种语言(法语、德语、西班牙语)的反向翻译进行平均，以得到最终的预测。

对于反向翻译的实现，可以使用TextBlob。或者，你也可以使用Google Sheets，并按照此处给出的说明：https://amitness.com/2020/02/backtransling-ingooglesheets/，免费申请谷歌翻译。