摘要: 目前,目标语言端的无标注单语数据已被广泛应用于在机器翻译任务中。然而,目标语言端的无标注数据一旦使用不当,反而会给模型结果带来负面影响。为了有效利用大规模源语言端和目标语言端的单语数据,微软亚洲研究院在 EMNLP 2019 上发表的论文中,提出一种简单的语料数据使用流程,只需要四个步骤就能极大地提 阅读全文
posted @ 2023-07-15 18:32 张Zong在修行 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是有一些方法的。 与计算机视觉中使用图像进行数据增强不同,NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作,如将图像旋转或将其转换为灰度,并不会改变其语义。语义不变变换 阅读全文
posted @ 2023-07-15 08:45 张Zong在修行 阅读(52) 评论(0) 推荐(0) 编辑