关于Generating aspect-oriented Muti-Document Document summarization with event-aspect model

这篇文章明天要开会讨论，还是先看吧。。

1、文章讨论的是基于话题的多文档文摘，作者首先借助LDA主题模型对句子进行聚类，然后使用LexRank算法对各个聚簇中的句子进行排序，最后应用线性判选取句子。这里面比较特别的是，他在对句子进行打分以后，对于候选句子进行一次修剪工作，并且他用的不是句子语法树,而是对这个方法进行了一些细致的改进。

2、文章的三个功能：a、相似意义语句的聚簇。b、基于随机游走模型的句子排序（LexRank不懂）c、提出一种新的句子压缩算法，有别于句法树。

3、局域话题文摘的三个应用：a、生成类似于维基百科那样的东东，给出一个东东各个方面的简介。b、对于一个问题不同人有不同的观点，抽取出所有这些观点。c、应用于搜索引擎或者QA问答系统，提高用户体验。（没想懂）。

4、话题划分，就是使用的LDA，对于他提的event-aspect和entity-aspect还是有点分不清楚，是说一个是一个个实体，一个是由实体组成的事件？？你们后面的说的基本方面和特殊方面如何理解。字，句子，文章三层分布，都是Dir分布。又是Gibbs抽样，不懂！！

5、关于句子排名打分，他在原有的LexRank的基础上进行了改进，对于计算本句子与相邻句子的跳转概率是，使用的句子相似度衡量的撒，而计算相似度用的是cos距离，作者在这行基础上，对sim进行修改，融合了ga和sa两个因素，也就是说他认为一个句子有双重属性，只是两个属性的权重比重不同。

6、关于LexRank我不认识，这个值是一个恒定值+该节点的邻居节点全值得均值。问题是，在我们这个语言环境，这个网络是如何构建的撒，是通过相似度建立网络呢。。还是直接就是上下句作为邻近节点。。。。。

7、在句子压缩模块，没有基于语法解析的方法，而是基于依赖关系的解析方法，句子压缩原则：a、借助语法关系寻找各个子树根节点。b、决定哪一个子树的根节点可以作为聚簇的根节点。（包含最多的子节点数，所有孩子节点边？？不懂撒，这不就是真是的根节点了吗。。。）c、删除多余的修饰词副词状语等等。d、遍历保留两个最长的子树根节点。e、删除少于五个词的子句。

8、压缩完句子，便需要最后一步，选取句子，文章采用的是整数规划算法，具体求解用的是分支界定发。作者将原文本的几个aspect综合考虑，既保证抽取句子的总排名靠前，有保证aspect间冗余度较低。此外添加了文摘长度限制。总结的说，目标函数，抽取句子总排名最靠前；约束条件：1、每个aspect只抽取一个句子。2、aspect间抽取的句子不能相似度>0.5。3、总的抽取句子长度不能超过L。

后期理解补充：

1、这篇文章的一个亮点，在于它将LDA进行了一个扩展，他有五层撒，topic,specific events,document,sentence,word，包含了background model、general aspect model、specific aspect model、docment model。换句话说，也就是在我们关系的主题文本集中，根据特定话题进行划分，然后每个事件中包含多个文档，每个文档包含多个句子，每个句子包含多个word，每个过程都是Dir分布撒。这样经过扩展的LDA会得到每个句子属于GA的概率，以及属于SA的概率，从而将这些句子聚簇到特定的类中，这里面的类包括（general类和各个特定的specific方面）。

2、这篇文章对于句子压缩模块做的并不好，他只是通过一些经验进行删减。不算可取。还是句法树比较靠谱。。。、

3、对于句子的排序，他认为没个句子都包含了GA和SA两个因素，对LR做了一个扩展，这一点比较有意思，但是认为每个句子虽然包含了GA和SA这两方面的信息，但是最终他还是认为每个句子只属于一类，即GA类或者某个SA类。

4、最后的句子抽取模块他比较有意思。用的是整数线性规划，这样做比之前用HMM做的好处在于，HMM每次只选择得分最高的句子，不考虑两个aspect简单的信息冗余，相当于背包问题用贪心来做，得到的结果不一定是全局最优，而整数线性规划可以得到全局最优解。但是他这方面也不是做的很完美，还是那个关于句子归属的问题。

5、最后，这篇文章没有说句子排序问题撒。对于句子的排序不一定的扁平的哦~~

posted on 2012-06-28 20:00 Vanior 阅读(313) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Vanior

关于Generating aspect-oriented Muti-Document Document summarization with event-aspect model

公告

导航