关于Generating aspect-oriented Muti-Document Document summarization with event-aspect model

这篇文章明天要开会讨论,还是先看吧。。

1、文章讨论的是基于话题的多文档文摘,作者首先借助LDA主题模型对句子进行聚类,然后使用LexRank算法对各个聚簇中的句子进行排序,最后应用线性判选取句子。这里面比较特别的是,他在对句子进行打分以后,对于候选句子进行一次修剪工作,并且他用的不是句子语法树,而是对这个方法进行了一些细致的改进。

2、文章的三个功能:a、相似意义语句的聚簇。b、基于随机游走模型的句子排序(LexRank不懂)c、提出一种新的句子压缩算法,有别于句法树。

3、局域话题文摘的三个应用:a、生成类似于维基百科那样的东东,给出一个东东各个方面的简介。b、对于一个问题不同人有不同的观点,抽取出所有这些观点。c、应用于搜索引擎或者QA问答系统,提高用户体验。(没想懂)。

4、话题划分,就是使用的LDA,对于他提的event-aspect和entity-aspect还是有点分不清楚,是说一个是一个个实体,一个是由实体组成的事件??你们后面的说的基本方面和特殊方面如何理解。字,句子,文章三层分布,都是Dir分布。又是Gibbs抽样,不懂!!

5、关于句子排名打分,他在原有的LexRank的基础上进行了改进,对于计算本句子与相邻句子的跳转概率是,使用的句子相似度衡量的撒,而计算相似度用的是cos距离,作者在这行基础上,对sim进行修改,融合了ga和sa两个因素,也就是说他认为一个句子有双重属性,只是两个属性的权重比重不同。

6、关于LexRank我不认识,这个值是一个恒定值+该节点的邻居节点全值得均值。问题是,在我们这个语言环境,这个网络是如何构建的撒,是通过相似度建立网络呢。。还是直接就是上下句作为邻近节点。。。。。

7、在句子压缩模块,没有基于语法解析的方法,而是基于依赖关系的解析方法,句子压缩原则:a、借助语法关系寻找各个子树根节点。b、决定哪一个子树的根节点可以作为聚簇的根节点。(包含最多的子节点数,所有孩子节点边??不懂撒,这不就是真是的根节点了吗。。。)c、删除多余的修饰词副词状语等等。d、遍历保留两个最长的子树根节点。e、删除少于五个词的子句。

8、压缩完句子,便需要最后一步,选取句子,文章采用的是整数规划算法,具体求解用的是分支界定发。作者将原文本的几个aspect综合考虑,既保证抽取句子的总排名靠前,有保证aspect间冗余度较低。此外添加了文摘长度限制。总结的说,目标函数,抽取句子总排名最靠前;约束条件:1、每个aspect只抽取一个句子。2、aspect间抽取的句子不能相似度>0.5。3、总的抽取句子长度不能超过L。

 

后期理解补充:

1、这篇文章的一个亮点,在于它将LDA进行了一个扩展,他有五层撒,topic,specific events,document,sentence,word,包含了background model、general aspect model、specific aspect model、docment model。换句话说,也就是在我们关系的主题文本集中,根据特定话题进行划分,然后每个事件中包含多个文档,每个文档包含多个句子,每个句子包含多个word,每个过程都是Dir分布撒。这样经过扩展的LDA会得到每个句子属于GA的概率,以及属于SA的概率,从而将这些句子聚簇到特定的类中,这里面的类包括(general类和各个特定的specific方面)。 

2、这篇文章对于句子压缩模块做的并不好,他只是通过一些经验进行删减。不算可取。还是句法树比较靠谱。。。、

3、对于句子的排序,他认为没个句子都包含了GA和SA两个因素,对LR做了一个扩展,这一点比较有意思,但是认为每个句子虽然包含了GA和SA这两方面的信息,但是最终他还是认为每个句子只属于一类,即GA类或者某个SA类。

4、最后的句子抽取模块他比较有意思。用的是整数线性规划,这样做比之前用HMM做的好处在于,HMM每次只选择得分最高的句子,不考虑两个aspect简单的信息冗余,相当于背包问题用贪心来做,得到的结果不一定是全局最优,而整数线性规划可以得到全局最优解。但是他这方面也不是做的很完美,还是那个关于句子归属的问题。

5、最后,这篇文章没有说句子排序问题撒。对于句子的排序不一定的扁平的哦~~

 

posted on 2012-06-28 20:00  Vanior  阅读(313)  评论(0编辑  收藏  举报

导航