[NLP] ROUGE ：NLP自动摘要、机器翻译的主流评估方法

0 前言

[定义]ROUGE:recall-oriented understanding for gisting evaluation,面向召回的要点评估理解
- 召回率,recall rate;要点,gisting
[应用领域]NLP:自动文本摘要评估(现主流评估方法之一)、机器翻译

本文介绍了一种用于总结的自动评价包ROUGE，并利用三年的[DUC](https://duc.nist.gov/)数据对ROUGE包中包含的自动措施进行了综合评价。为了检验结果的显著性，我们使用自举重采样估计相关的置信区间。我们发现:

ROUGE-2、ROUGE-L、ROUGE-W、ROUGE-S在单文档摘要任务中表现良好.
ROUGE-1、ROUGE-L、ROUGE-W、ROUGE-SU4和ROUGE-SU9在评价非常短的摘要(或类似标题的摘要)时表现出色.
相关高于90%时，很难实现对多文档摘要任务，但ROUGE-1,ROUGE-2,ROUGE-S4,ROUGE-S9,ROUGE-SU4,和ROUGE-SU9效果良好(stopwords排除在匹配时)
排除stopwords，通常能够提高相关性
①人类的评判通过使用多个引用，增加了其相关性。总之，我们证明了：ROUGE包可以有效地用于摘要的自动评估。
②在另一项研究中(Lin和Och 2004)， ROUGE -L、W和S在机器翻译的自动评估中也被证明是非常有效的。
③作者于2004年(Lin)报道了不同测试样本大小下，ROUGE的稳定性和可靠性。
④然而，如何在多文档摘要任务中实现与人类评判的高相关性，仍然是一个有待研究的课题。
【感谢(Acknowledgements)】作者要感谢匿名评论者的建设性意见，Paul在美国NIST美国国防部高级研究计划局潮汐项目(DARPA TIDES project)支持这项研究。

posted @ 2019-07-25 10:35 千千寰宇阅读(2426) 评论(0) 收藏举报

刷新页面返回顶部