关于自动摘要

关于自动摘要

2020-07-10 20:28:24

研究内容

  • 抽取式,生成式,单文档,多文档,跨语言,科学文献,多模态,无监督,预训练等

  • 自动评价方法也是业内研究的对象。

资料

观点

  1. 参考

如何科学地评价模型生成摘要的质量,也就是如何找到比 ROUGE 更科学的自动评价指标的问题(evaluation metric)

A Graph-theoretic Summary Evaluation for ROUGE, EMNLP 2018 https://www.aclweb.org/anthology/D18-1085.pdf

文本摘要(Text Summarization)这一经典NLP任务目前存在什么问题?有什么新的趋势? - 知乎
https://www.zhihu.com/question/357307901/answer/906490268

  1. 参考

在ROUGE评价指标下,分两类来说:【抽取式】摘要,再怎么折腾,也就比LEAD-3好一点点。抽取摘要近些年发文章不多了,摘要未来的主要探索方向还是应该在【生成式】摘要方法上。生成式摘要目前存在的问题,源头是【文本生成】不受控的问题。

现在主流的是 pointer generator 模型,Crtl+C不能解决所有问题,生硬照抄,缺乏变形和抽象;另外,在inference的时候,由于对解码器端输入的依赖问题,会出现重复生成,甚至endless repetitive circle(coverage mechanism可以有效改善)。

趋势就是尝试引入外部知识,引导文本生成。再编辑、润色等后处理等操作会是一些不错的选择。

[1] Concept Pointer Network for Abstractive Summarization. EMNLP 2019

[2] Improving Latent Alignment in Text Summarization by Generalizing the Pointer Generator. EMNLP 2019

[3] Encode, Tag, Realize: High-Precision Text Editing. EMNLP 2019

作者:Ahead
链接:https://www.zhihu.com/question/357307901/answer/925127950
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  1. 参考

anstractive summarization存在的问题就是目前的模型压根就不能用,生成的结果既不流畅也不准确,唯一能看的是那些paper里的rouge得分,pointer generator network?收敛都成问题!gan?reinforcement?bert?任重而道远……

作者:灯头
链接:https://www.zhihu.com/question/357307901/answer/913011882
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  1. 重要

目前最好的基于RNN的Seq2Seq生成式文本摘要模型之一来自Salesforce

https://zhuanlan.zhihu.com/p/30559757

模型

算法

数据集

CNN/DailyMail (CNN/DM) corpus
CNN/Daily Mail、New York Times
BioASQ 多文档文本摘要
DUC-2004

评估指标

  • ROUGE

  • BE(BasicElement)

  • Pyramid

  • 语法正确性、语言流畅性、关键信息完整度

  • 人工评价方法、自动评价方法

ROUGE:ROUGE-N(N=1、2、3、4,分别代表基于1元词到4元词的模型),ROUGE-L,ROUGE-S, ROUGE-W,ROUGE-SU

BE:它基于句法树/依存关系树,它定义了基本元素(BE)作为 评价的基本单元。基本元素是一个个最小的语义单元,可以由计算机自动进行 抽取,通常由l至lJ3个单词构成。在对自动摘要和人工摘要进行基本元素抽取之 后,这种方法还采用特定的方式对基本元素进行变换,己保证表达同样意思的 基本元素形式一致,最后根据自动摘要和参考摘要基本元素的重叠程度对自动 摘要进行打分,这种方式用的比较少,因为构建依存关系树有误差。

Pyramid:它用摘要内容单元SCU(SummaryContentUnit)作为评价的基本单元。摘要内容单元一般是含有主谓成分的完整句子,需要人工进行标注得到,得到之后还会根据摘要内容单元在参考文献中出现的 情况赋予不同的权重,即出现次数越多的基本内容单元权重越高。最后根据自 动摘要和参考摘要基本内容单元的重叠度以及基本内容单元的权重来对自动摘 要进行打分。

主要机构/单位/公司

  • SUMMAC,DUC(Document Understanding Conference),TAC(Text Analysis Conference)、Trec、NLPCC

DUC(Document Understanding Conference)评测是由NIST(National Institute of Standards and Technology)从2001年开始举办的摘要评估领域比较有名的一个国际评测,各大文本摘要系统都会在这里较量一番。这里提供的数据集都是小型数据集,用来评测模型的。比赛直到2007年,2008年开始,DUC逐渐转移到TAC(Text Analysis Conference),DUC就停办了。

TAC依然由NIST举办,到2014年停办。停办可能的原因是它们认为经过一段时间的发展,技术提升上投入很大,就不再办下去了。

Ntcir: 1 click是一种新型的评测,它是给定一个查询,给定一个文档集,生成指定词的描述,要求回答查询的问题。

Trec(temporal summarization track)是引号式的摘要,跟实际性有关的摘要。

Nlpcc主要是中文摘要评测。

论文

  • Salesforce: A Deep Reinforced Model for Abstractive Summarization,基于RNN的生成式自动文本摘要模型,通过架构创新和若干tricks提升模型概括长文本的能力,在CNN/Daily Mail、New York Times数据集上达到了新的state-of-the-art(最佳性能)。

  • Facebook:Convolutional Sequence to Sequence Learning,ConvS2S模型由Facebook的AI实验室提出,它的编码器和解码器都是基于卷积神经网络搭建的。这个模型主要用于机器翻译任务,在论文发表的时候,在英-德、英-法两个翻译任务上都达到了state-of-the-art。同时,作者也尝试将该模型用于自动文本摘要,实验结果显示,基于CNN的Seq2Seq模型也能在文本摘要任务中达到接近state-of-the-art的表现。

资料

不同粒度的抽取式文本摘要系统

直播主题:不同粒度的抽取式文本摘要系统
直播嘉宾:王丹青、钟鸣,复旦大学自然语言处理组2018级在读研究生
直播时间:4月25日(周六)晚20:00

直播地址:http://mooc.yanxishe.com/open/course/804

提出了一个新颖的基于图神经网络建模单词与句子以及句间关系的模型,并在另一个工作中提出可以从摘要级的角度来建立匹配模型并解决抽取式摘要任务。

【重要】
https://github.com/neulab/Text-Summarization-Papers

posted on 2020-07-16 14:40  宋岳庭  阅读(679)  评论(0编辑  收藏  举报