摘要: 笔记: 研究问题: 文本生成评测指标 人工评估昂贵而缓慢 自动指标对词汇变化敏感不能理解语义或者语法变化 ROUGE and BLEU:最早出现的句子相似度度量方法,基于N-gram重叠。这些度量标准只对词汇变化敏感,不能识别句子语义或语法的变化。因此,它们被反复证明与人工评估差距较大。 BEER, 阅读全文
posted @ 2020-07-03 10:19 白云君 阅读(759) 评论(0) 推荐(0) 编辑