机器翻译的大规模自动评估
机器翻译的大规模自动评估
在 WMT22 的 21 个翻译方向上评估了 185 个系统
Language pairs of WMT22 — Image by the author
与 2006 年以来的每一年一样,机器翻译会议 (WMT) 组织了广泛的机器翻译共享任务。来自世界各地的众多参与者提交了他们的机器翻译 (MT) 输出,以展示他们在该领域的最新进展。 WMT 通常被认为是观察和评估 MT 最新技术的参考事件。
2022 年版将原来的新闻翻译任务替换为涵盖新闻、社交、会话和电子商务等各个领域的“通用”翻译任务。仅此任务就收到了组织者准备的21个翻译方向的185份提交:捷克语↔英语(cs-en),捷克语↔乌克兰语(cs-uk),德语↔英语(de-en),法语↔德语(fr-de )、英语→克罗地亚语 (en-hr)、英语↔日语 (en-ja)、英语↔利沃尼亚语 (en-liv)、英语↔俄语 (en-ru)、俄语↔雅库特语 (ru-sah)、英语↔乌克兰语(en-uk) 和英语↔中文 (en-zh)。这些翻译方向涵盖了广泛的场景。组织者根据语言的相关性和可用于培训 MT 系统的资源数量将它们分类如下:
Image by the author —Data Source: https://statmt.org/wmt22/translation-task.html
通过这种多种语言对与多种领域相结合,我们可以准确地描绘出机器翻译的当前状态。
在这篇文章中,我报告了 185 份提交的自动评估,包括组织者添加的在线系统。我的主要观察如下:
- 用于低资源远程语言对的机器翻译仍然是一项极其困难的任务。
- 对于某些翻译方向(例如,de→fr),提交的最佳输出与在线系统提供的翻译质量相差甚远。
- 高于 0.9 的两个 MT 系统之间的 BLEU 分数差异在此任务中始终具有统计学意义。
- 对于几乎所有翻译方向的翻译质量评估,BLEU 与 COMET 的相关性较差,但仍可用作诊断和分析工具。
- 绝对的 COMET 分数是没有意义的。
在这项研究中,我使用了参考翻译和系统输出 WMT22主办方公开发布 并且可以交叉检查我的一些结果,感谢 Tom Kocmi 发布的初步报告 .
这不是对 WMT22 的官方评价。 WMT22 正在进行一项人工评估,该评估将在 2022 年 12 月 7 日至 8 日的会议上进行详细介绍,该会议与阿布扎比的 EMNLP 2022 位于同一地点。
请注意,这篇文章是我最近的报告的更易消化和更短的版本,您可以在 arXiv 上找到: WMT22 通用机器翻译任务的自动评估 .
使用指标评分和排名
在本次评估中,我使用了三种不同的自动指标:
• chrF ( 波波维奇,2015 ):在字符级别运行的标记化独立指标,与人类判断的相关性高于 BLEU。这是我通常推荐的用于评估翻译质量的指标,因为它的计算成本非常低、可重复且适用于任何语言。
• 蓝光( 帕皮尼尼等人,2002 ): 标准 BLEU。
• 彗星( 金等人,2020 ):基于预先训练的语言模型的最先进的度量。我们使用默认模型“wmt20-comet-da”。
请注意,在这项特定研究中,chrF 和 BLEU 仅用于诊断目的并回答以下问题:我们距离特定参考翻译还有多远?我不会用它们来对翻译质量下结论。为此,我使用 COMET 生成系统排名,以便更好地与人类评估相关联。
我根据他们的分数对每个翻译方向的系统进行了排名,但我只为那些被作者宣布“受约束”的系统分配了一个排名,即只使用组织者提供的数据的系统。在下表中,等级为“n/a”的系统是不受约束的系统。
有两个参考翻译进行评估,我们获得了机器翻译研究文献中很少见的绝对 BLEU 分数,例如 JDExploreAcademy 的 cs→en 的 BLEU 分数为 60.9,如下所示:
Image by the author.
由于使用了较小的标记,因此 en→zh 的 BLEU 分数甚至更高,这使得 4-gram 匹配更容易完成:
Image by the author.
绝对 BLEU 分数并不能告诉我们翻译质量本身,即使分数高于 60 也不一定意味着翻译很好,因为 BLEU 取决于许多参数。但是,BLEU 确实告诉我们,这些系统会产生很多在参考翻译中的 4-gram。
虽然 chrF 和 BLEU 直接指示翻译与得分在 0 到 100 分之间的参考文献的匹配程度,但 COMET 得分不受限制。例如,在极端情况下,AMU 为 uk→cs 获得 104.9 COMET 分,而 AIST 为 liv→en 获得 -152.7 COMET 分。实际上,我对这个幅度感到惊讶,并且不得不在验证这些分数之前重新检查 COMET 是如何计算的(在下面的“关于 COMET 的注释”部分中有更多详细信息)。
对于 21 个语言对中的 11 个,COMET 找到了一个最佳系统,该系统不在 BLEU 和 chrF 找到的最佳系统之列。令人惊讶的是,对于某些平移方向,受约束的系统优于不受约束的系统。根据 COMET,cs→uk、uk→cs、de→en、ja→en 和 en→ja 就是这种情况。对于其他一些方向,在线系统似乎要好很多。例如,对于 de→fr,Online-W 比最佳约束系统好 18.3 BLEU 点。
我从这些排名中的主要收获是,使用 WMT22 未提供的数据是获得最佳系统的关键。当然这并不奇怪,但我希望参与者能够充分描述和分析他们的数据集,以更好地理解它们为何如此重要。
统计显着性检验
现在我们对每个系统都有分数,我们想根据某个度量标准衡量一个系统优于另一个系统的结论的可靠性。换句话说,我们想测试系统的度量分数之间的差异是否具有统计显着性。有几种工具和技术可以执行统计显着性检验。对于这次评估,我选择了最常用的:paired bootstrap resampling 最初由 科恩 (2004) .
第一个有趣的观察是,BLEU 的差异高于 0.9 点(cs→uk)总是显着的,p 值 < 0.05。鉴于我用于 p 值的相对较高且有争议的阈值,我发现 0.9 相当高,因为大多数研究 MT 论文声称他们的系统明显优于 BLEU 差异高于 0.5。
在 chrF 中,不显着的最大差异为 0.6 分(en→zh),而 COMET 达到 2.6 分(liv→en)。请注意,这将根据与 COMET 一起使用的模型而有很大差异。
这三个指标仅在 21 个中的 5 个翻译方向上明显优于其他所有指标的系统一致:cs→en (Online-W)、fr→de (Online-W)、en→liv (TAL-SJTU)、 sah→ru(在线-G)和 en→uk(在线-B)。
我从这个统计显着性测试中的主要收获是它很有见地。这在 MT 研究界经常被争论,但我真的认为这是一个必要的工具。对于非常知名的指标,例如 BLEU,研究人员通常应用经验法则,例如,1.0 或更大的差异具有统计显着性。这可能是正确的,尽管在经过测试之前在科学上并不可信。尽管如此,我们不太了解的新指标又如何呢? 1.0 COMET 点差异显着吗?显然,这取决于任务和 COMET 模型(我们将在下面看到)。这就是为什么在声称一个系统优于另一个系统之前必须进行统计显着性测试的原因。两个系统的分数之间的差异幅度应该被认为是没有意义的。
标准化影响
我还对标准化翻译输出进行了实验,以观察 BLEU 和 COMET 如何对标点符号和编码问题的变化敏感。它还可以突出显示系统是否依赖某些特殊的后处理来增加度量分数。对于标准化,我使用了以下序列 摩西脚本 :
标记器/替换-unicode-punctuation.perl |标记器/规范化标点符号.perl -l<target_language> | /tokenizer/remove-non-printing-char.perl
正如预期的那样,我发现 COMET 对这种标准化几乎不敏感。另一方面,它对 BLEU 分数的影响更大,但它可能因系统而异。例如 en→cs,对 JDExploreAcademy 没有影响,而 Online-Y 的分数下降了 1.4 BLEU 分。对于 de→fr,归一化使 Online-A 的 BLEU 分数提高了 4.9 分,并且比归一化对 BLEU 没有影响的 Online-W 更好。尽管如此,Online-W 仍然比 Online-A 高出大约 10 个 COMET 点。
这里没有什么意外,但很好地提醒了为什么 BLEU 作为翻译质量的评估指标可能非常不准确。
COMET的特殊性
BLEU 和 chrF 绝对分数可用于诊断目的并回答基本问题:我们与给定标记化的参考有多接近?系统是否可能生成了目标语言的文本?等。COMET 不能,但对于排名系统来说更可靠,如之前的工作所示。
由于我观察到 COMET 分数之间的幅度很大,因此我尝试了几个 COMET 模型来观察它们之间的分数如何变化。
我可以观察到 wmt20-comet-da(默认模型)的分数实际上与所有其他模型完全不同。虽然使用 wmt20-comet-da 的系统获得的最高分数是 104.9 (uk→cs),但使用其他 4 个模型获得的分数在所有平移方向上从未超过 15.9。更具体地说,对于 wmt21-comet-da,对于 ja→en,最佳系统得分为 1.1,如下表所示。
Image by the author.
更奇特的是,对于 zh→en,wmt21-comet-da 分数对所有系统都是负数:
Image by the author.
使用 wmt21-comet-mqm,系统的分数在四舍五入时看起来非常接近。
我得出结论,无论我们使用什么模型,绝对 COMET 分数都不能提供信息。负面的 COMET 分数可以分配给优秀的机器翻译系统。
下一步是什么?
该评估清楚地表明,某些翻译方向比其他方向更容易。然而,在运行了所有这些实验之后,我发现最有趣的是我不知道这些系统有多好! BLEU 和 chrF 只会告诉我们与特定参考翻译的距离有多近,但考虑到使用的标记化,绝对分数可能会有很大差异。 COMET 仅对排名系统有用。据我所知,到 2022 年,我们仍然没有 MT 的自动评估指标,即:
- 关于翻译质量的信息,即不仅对排名系统准确;
- 这将产生在不同设置(例如域、语言对、标记化等)之间具有可比性的分数。
感谢 BLEU 和 chrF,我们可以观察到我们在一些翻译方向(如 cs→en 和 en→zh)的参考翻译方面有些接近,但对于其他方向(如 en↔liv 和 ru↔sah)仍然很远。另一方面,COMET 表明 WMT22 系统在 19 个翻译方向中只有 5 个明显优于在线系统(我省略了 en↔liv):cs→uk(AMU)、uk→cs(AMU)、de→en( JDExploreAcademy)、en→ja(JDExploreAcademy、NT5、LanguageX)和 en→zh(LanguageX)。
观察这些发现是否与 WMT22 进行的人类评估相关将会很有趣。
我只强调了我评估的主要发现。在我提交给 arXiv 的过程中,还有更多,尤其是尝试合并所有提交的系统。
致谢
我要感谢 WMT 组织者发布翻译,感谢 Tom Kocmi 提供初步结果以及对我的 arXiv 报告初稿提出的有见地的意见和建议。
如果你想支持这项工作, 在 Medium 上关注我 .
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明