关于文章 Generating Impact-Based Summaries... By Mei qiaozhu

1、作者认为，一篇文章的被引用情况可以反映此文章的影响力，所以他产生的文摘是基于影响力的，他的模型在训练时，是使用了原始文本和文本的引用句子作为数据集，但是最终抽取句子形成文摘，缺是只从原始文本中抽取，引用句子的影响度用原文来表示（这也就是为什么他要寻找分布最相似的）。

2、他不用引用句子的原因是，引用句子大多会夹杂一些其他非我们关注的信息。

3、这里面他建立的一个语言语言模型。不同的是，它是以一个句子为单位。在这，这里他看的不是句子的频率（有词频得到），而是句子的影响力（这也是一个概率）。

3、他建立了两个语言模型，一个是针对整个样本集（原文，和Citation窗口句子），一个则是针对备选句子。然后计算这两个影响力分布的相似度。用KL撒。

4、这里面，我们如何来定义相似度呢，他将citation因素导入其中，将影响力分为在原文中的词频概率，和引文影响力，两者按照一定比例分配。同时，他又认为，每一个引文句子的影响力是不同的，不能等视之，因此加了一个权重。这个权重又由两部分构成，一个是权威度，一个是距离确切引用度的距离。而权威度，这里他用的是pagerank进行计算的。

5、大体上就是这样了。

posted on 2012-07-31 22:00 Vanior 阅读(255) 评论(0) 收藏举报

刷新页面返回顶部

Vanior

关于文章 Generating Impact-Based Summaries... By Mei qiaozhu

公告

导航