【NLP】BLEU值
为了解决这个问题,首先需要知道BLEU值是如何计算出来的。
BLEU全称是Bilingual Evaulation Understudy。其意思是双语评估替补。所谓Understudy(替补),意思是代替人进行翻译结果的评估。
BLEU的思想基于Count based Model,尽管它并不完美,但它提供了一种非常有效的以单一数字指标评估机器翻译结果的方法。
下面以一个例子说明BLEU的计算。
假如正确的翻译参考(2)个是:
The cat is on the desk.
There is a cat on the desk.
那么很自然想到,用实际翻译结果中出现在参考翻译中的单词数除以实际翻译结果单词总数,是一种评估方法。例如,若翻译结果为The cat are on the desk
。则评分为:,只有are没有出现,这看起来是合理的。但是若翻译结果为is is is is is is is
,那么很显然,评分为,is在参考翻译句子中出现了。很明显,这就不对了。
一个解决方法是,规定实际翻译结果中每个单词的计数不得超过在单个参考翻译中出现的最大次数。即上述is is is is is is
结果,单词is在参考翻译中出现的最大次数是1,因此,评分为。
这是比较合理的。
还有个因素需要考虑,假如实际翻译句子为desk the on cat a is there
,那么得分为,虽然单词都出现了,上面的方法仅仅考虑了uni-gram,句子的流畅度却没有考虑。因此,根据“平滑”的思想,进一步考虑bi-gram,tri-gram。实际应用中,一般是考虑1-gram到4-gram。具体来说:
计算所有单个单词,在参考翻译中的得分,计算方式为:
式中,是一元组,即单个单词数(不包括重复)。
计算所有二元组,记为在参考翻译中的得分,计算方式为:
式中,是二元组数(不包括重复)。
类似的计算三元组,四元组得分。
可见,若翻译结果好,每个得分的值就是1。
最后,将四个得分平均(或加权),得到最后的分数:
实际应用中,常常取自然指数作为最后的评分值,即:
现在的应用(paper)中评估BLEU值,一般取n-gram从1到4,并不做平均,而是做加和再取对数值。即实际中的BLEU值计算方式为:
可见,如果翻译结果恰为某个参考翻译结果,四个得分都取1,最终的值为,即BLEU值最大为54.598分。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· .NET Core 中如何实现缓存的预热?
· 三行代码完成国际化适配,妙~啊~
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?