NLP之ROUGE[笔记]

0 前言

  • [定义]ROUGE:recall-oriented understanding for gisting evaluation,面向召回的要点评估理解
    • 召回率,recall rate;要点,gisting
  • [应用领域]NLP:自动文本摘要评估(现主流评估方法之一)、机器翻译

1 结论[from paper]

本文介绍了一种用于总结的自动评价包ROUGE,并利用三年的[DUC](https://duc.nist.gov/)数据对ROUGE包中包含的自动措施进行了综合评价。为了检验结果的显著性,我们使用自举重采样估计相关的置信区间。我们发现:
  1. ROUGE-2、ROUGE-L、ROUGE-W、ROUGE-S在单文档摘要任务中表现良好.
  2. ROUGE-1、ROUGE-L、ROUGE-W、ROUGE-SU4和ROUGE-SU9在评价非常短的摘要(或类似标题的摘要)时表现出色.
  3. 相关高于90%时,很难实现对多文档摘要任务,但ROUGE-1,ROUGE-2,ROUGE-S4,ROUGE-S9,ROUGE-SU4,和ROUGE-SU9效果良好(stopwords排除在匹配时)
  4. 排除stopwords,通常能够提高相关性
  5. ①人类的评判通过使用多个引用,增加了其相关性。总之,我们证明了:ROUGE包可以有效地用于摘要的自动评估。
    ②在另一项研究中(Lin和Och 2004), ROUGE -L、W和S在机器翻译的自动评估中也被证明是非常有效的。
    ③作者于2004年(Lin)报道了不同测试样本大小下,ROUGE的稳定性可靠性
    ④然而,如何在多文档摘要任务中实现与人类评判的高相关性,仍然是一个有待研究的课题。
  6. 【感谢(Acknowledgements)】作者要感谢匿名评论者的建设性意见,Paul在美国NIST美国国防部高级研究计划局潮汐项目(DARPA TIDES project)支持这项研究。

2 延伸

3 参考文献

posted @ 2019-07-25 10:35  千千寰宇  阅读(1697)  评论(0编辑  收藏  举报