[NLP]文本摘要介绍
文本摘要:从数据上来看,分为利用无监督数据(自动摘要)和有监督数据两种方法
文本摘要:从获取方法上看,分为抽取式摘要(从原文中抽取多个句子组成概要)和生成式摘要(先是自然语言理解进行篇章理解,然后用自然语言生成来生成摘要)两种方法。
二、抽取式摘要方法
1、基于无监督的抽取方法:page-rank
主要处理流程:先构造图(其中一个句子是一个结点,结点之间的边是句子之间的关系),然后利用page-rank算法计算每个句子的得分score,最后根据score获取top 3/5个句子作为最终生成的摘要。
构造图的方法:将所有的句子转换成向量(假设有100个句子),根据简单的公式计算(如余弦相似度,欧式距离)等计算句子之间的相似度,最后得到一个句子相似度矩阵(100*100)。
注:Page-rank:是一张有向图,结点是一个网页,边是两个网页之间的关系(这个关系是可进可出的,比如说A,B两个网页,A指向B表示根据B可以得到A的网址,或者说B比A更高一个层级是更重要的网页),每个结点的得分是指向它的结点的数量以及指向它的结点的权重两个方面来确定。
具体计算过程如下:
假设有三个点,A指向B,B指向C,C指向A和B,分别计算A、B、C的score。(设d=0.85)
迭代算法:不断迭代计算A、B、C的得分,当所有得分不再变化时,则迭代停止。
2、基于有监督的抽取式摘要方法:根据训练数据,提取特征向量,构造机器学习模型。
三、生成式摘要方法
基于有监督的生成式摘要方法:使用深度学习模型,如seq2seq模型等来做。