文本自动摘要发展历程
看了近70年文本自动摘要研究综述,简单记录一下文本自动摘要的发展历程和方法。
文本摘要通常是指从单个或多个文档中产生一段文本,该文本传达了原始文本的主要信息。
文本自动摘要是20世纪50年代出现的一种用计算机完成的文本摘要技术,帮助人们从信息海洋中解放,提高信息的使用效率。
自动摘要研究是从抽取式摘要开始的。
1.抽取式自动摘要
根据词频确定词权重:首先对所有词出现的频率进行统计;根据经验确定一个频率区间,区间内为重要词,区间外的词是高频词和低频词视为噪音;对于文章中包含重要词和不超过四个非重要词的句子,被选中为候选句,句子的重要性得分按照公式(1)计算:
其中,sign代表括号内的重要词数,n代表括号中的总词数。根据对候选句计算重要性得分高低进行排序,选出若干最高得分的句子作为摘要。
后来又加入了句子位置作为特征,在段落中85%的主题句位于段首,7%的主题句处于段尾。词频、句子位置、线索词、标题词这四个特征是早期抽取式自动摘要使用的主要特征。
2.利用外部资源的方法
随着自动摘要研究的深入,研究人员不再满足于简单统计文本本身的特征,开始借助外部资源来辅助确定文档中的词权重、获取词间语义关系等,从而识别重要句子。常用外部资源有背景语料、同义词典、知识库等,较为著名的方法有TF-IDF、词汇链等方法。
TF-IDF的基本思想是:在一个语料库中,一个词的重要性于词频正相关,于包含它的文档数负相关。思路是:根据背景语料库统计各个词的TF-IDF值,作为词的重要性得分,然后计算文章各句的的词的TF-IDF和,作为句子的重要性得分,抽取最重要的句子作为摘要。
词汇链,不再以单个词作为分析单元,而是利用WordNet、词性标注工具、维基百科等对词义进行分析,把原文中于某个主题相关的词集合起来,构成词汇链。选出强词汇链,为每一个强词汇链抽取一个句子构成摘要。
3.基于统计机器学习的方法
20世纪90年代,有监督的机器学习方法在自然语言处理领域得到广泛使用,该方法通过对人工标注语料进行训练,可以获得句子的文本特征与句子重要性的关系模型,利用此模型即可对未标注句子的重要性进行自动检测,生成摘要。在这类方法中,抽取式自动摘要问题被转化成一个二分类问题。一个句子要么是摘要句,要么不是。首先人工将重要句子标注出来,然后提取这些句子的特征,学习算法通过统计分析学习,得到特征与句子重要性的关系,进而得到合适的分类器。向分类器中丢入待分类句子,可得到重要句子得分,选出重要句子。
较为广泛使用的算法有:朴素贝叶斯算法、决策树算法、最大墒算法、隐马尔可夫算法。
4.基于语言网络的方法
语言是一个复杂网络,构成网络的节点可以是词、概念、句子等文本单元,节点之间以句法、语义、语音、拓扑等产生关系。
5.基于深度学习的方法 分为深度框架和(抽取式)和深度学习(生成式)两种。
5.1 深度框架:输入层为词频向量、输出层为摘要、隐层是若干个受限的玻耳兹曼机,多个隐层可以使得底层特征可用于推断出更优的高层特征,而高层特征的有效性又可通过底层验证。分为三个阶段:概念抽取/重建验证/摘要生成。
5.2深度学习:“序列到序列的方法” 自动摘要问题也被视为从原文本到摘要文本的映射。自动摘要模块 Tensorflow——Textsum