关于文章 Generating Impact-Based Summaries... By Mei qiaozhu

1、作者认为,一篇文章的被引用情况可以反映此文章的影响力,所以他产生的文摘是基于影响力的,他的模型在训练时,是使用了原始文本和文本的引用句子作为数据集,但是最终抽取句子形成文摘,缺是只从原始文本中抽取,引用句子的影响度用原文来表示(这也就是为什么他要寻找分布最相似的)。

2、他不用引用句子的原因是,引用句子大多会夹杂一些其他非我们关注的信息。

3、这里面他建立的一个语言语言模型。不同的是,它是以一个句子为单位。在这,这里他看的不是句子的频率(有词频得到),而是句子的影响力(这也是一个概率)。

3、他建立了两个语言模型,一个是针对整个样本集(原文,和Citation窗口句子),一个则是针对备选句子。然后计算这两个影响力分布的相似度。用KL撒。

4、这里面,我们如何来定义相似度呢,他将citation因素导入其中,将影响力分为在原文中的词频概率,和引文影响力,两者按照一定比例分配。同时,他又认为,每一个引文句子的影响力是不同的,不能等视之,因此加了一个权重。这个权重又由两部分构成,一个是权威度,一个是距离确切引用度的距离。而权威度,这里他用的是pagerank进行计算的。

5、大体上就是这样了。

posted on 2012-07-31 22:00  Vanior  阅读(253)  评论(0编辑  收藏  举报

导航