2023 年 7月 15 日随笔档案 - 张Zong在修行

2023年7月15日

机器翻译｜EMNLP 2019大规模利用单语数据提升神经机器翻译

摘要：目前，目标语言端的无标注单语数据已被广泛应用于在机器翻译任务中。然而，目标语言端的无标注数据一旦使用不当，反而会给模型结果带来负面影响。为了有效利用大规模源语言端和目标语言端的单语数据，微软亚洲研究院在 EMNLP 2019 上发表的论文中，提出一种简单的语料数据使用流程，只需要四个步骤就能极大地提阅读全文

posted @ 2023-07-15 18:32 张Zong在修行阅读(26) 评论(0) 推荐(0) 编辑

NLP | 数据增强总览

摘要：深度学习视觉领域的增强方法可以很大程度上提高模型的表现，并减少数据的依赖，而NLP上做数据增强不像在图像上那么方便，但还是有一些方法的。与计算机视觉中使用图像进行数据增强不同，NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作，如将图像旋转或将其转换为灰度，并不会改变其语义。语义不变变换阅读全文

posted @ 2023-07-15 08:45 张Zong在修行阅读(52) 评论(0) 推荐(0) 编辑

zhangxuegold

公告