文本自动摘要发展历程

看了近70年文本自动摘要研究综述，简单记录一下文本自动摘要的发展历程和方法。

文本摘要通常是指从单个或多个文档中产生一段文本，该文本传达了原始文本的主要信息。

文本自动摘要是20世纪50年代出现的一种用计算机完成的文本摘要技术，帮助人们从信息海洋中解放，提高信息的使用效率。

自动摘要研究是从抽取式摘要开始的。

1.抽取式自动摘要

　　根据词频确定词权重：首先对所有词出现的频率进行统计；根据经验确定一个频率区间，区间内为重要词，区间外的词是高频词和低频词视为噪音；对于文章中包含重要词和不超过四个非重要词的句子，被选中为候选句，句子的重要性得分按照公式（1）计算：

其中，sign代表括号内的重要词数，n代表括号中的总词数。根据对候选句计算重要性得分高低进行排序，选出若干最高得分的句子作为摘要。

后来又加入了句子位置作为特征，在段落中85%的主题句位于段首，7%的主题句处于段尾。词频、句子位置、线索词、标题词这四个特征是早期抽取式自动摘要使用的主要特征。

2.利用外部资源的方法

　　随着自动摘要研究的深入，研究人员不再满足于简单统计文本本身的特征，开始借助外部资源来辅助确定文档中的词权重、获取词间语义关系等，从而识别重要句子。常用外部资源有背景语料、同义词典、知识库等，较为著名的方法有TF-IDF、词汇链等方法。

　　TF-IDF的基本思想是：在一个语料库中，一个词的重要性于词频正相关，于包含它的文档数负相关。思路是：根据背景语料库统计各个词的TF-IDF值，作为词的重要性得分，然后计算文章各句的的词的TF-IDF和，作为句子的重要性得分，抽取最重要的句子作为摘要。

　　词汇链，不再以单个词作为分析单元，而是利用WordNet、词性标注工具、维基百科等对词义进行分析，把原文中于某个主题相关的词集合起来，构成词汇链。选出强词汇链，为每一个强词汇链抽取一个句子构成摘要。

3.基于统计机器学习的方法

　　20世纪90年代，有监督的机器学习方法在自然语言处理领域得到广泛使用，该方法通过对人工标注语料进行训练，可以获得句子的文本特征与句子重要性的关系模型，利用此模型即可对未标注句子的重要性进行自动检测，生成摘要。在这类方法中，抽取式自动摘要问题被转化成一个二分类问题。一个句子要么是摘要句，要么不是。首先人工将重要句子标注出来，然后提取这些句子的特征，学习算法通过统计分析学习，得到特征与句子重要性的关系，进而得到合适的分类器。向分类器中丢入待分类句子，可得到重要句子得分，选出重要句子。

　　较为广泛使用的算法有：朴素贝叶斯算法、决策树算法、最大墒算法、隐马尔可夫算法。

4.基于语言网络的方法

　　语言是一个复杂网络，构成网络的节点可以是词、概念、句子等文本单元，节点之间以句法、语义、语音、拓扑等产生关系。

5.基于深度学习的方法 　　分为深度框架和（抽取式）和深度学习（生成式）两种。

　　5.1 深度框架：输入层为词频向量、输出层为摘要、隐层是若干个受限的玻耳兹曼机，多个隐层可以使得底层特征可用于推断出更优的高层特征，而高层特征的有效性又可通过底层验证。分为三个阶段：概念抽取／重建验证／摘要生成。

　　5.2深度学习：“序列到序列的方法” 自动摘要问题也被视为从原文本到摘要文本的映射。自动摘要模块 Tensorflow——Textsum

posted @ 2018-04-15 17:13 Qamra 阅读(1162) 评论(0) 收藏举报

刷新页面返回顶部

Qamra

文本自动摘要发展历程

公告