关于GCSTA by zrx

这篇文章也是关于aspect的,他基于aspect在连贯性上做了突破。

1、他认为现在大部分的文摘系统对于获取关键信息都是采用的统计的方法,但是当我们要获取某些特定信息时这种方法并不奏效,比如让我要知道一场灾难的原因,很多描述原因的句子中并不一定会出现cause这个词,这时统计便可能会漏掉这些重要信息。因此就出现aspect了撒~~

2、aspect分为verb aspect 和products aspect。

3、此论文生成的文摘的特点:a、侧重于用户需求。b、文摘连贯(这里的连贯指的是内容上的连贯,不是表法方式上的连贯)。

4、对于基于aspect的文摘,他觉得用以往的监督或者无监督的学习算法,聚类啥的,并不能得到较好的结果,往往只属于一个特定的aspect。他觉得这里要是用信息抽取可能得到的结果会出乎意料。

5、在aspect的识别方面,我基本没看懂。他定义了一个新的特征类型,meta-phrase。这个东东更是一个二元组(m1,m2)这里面,mi是一个词或者短语,这是一个语法标签,或者说是hi米命名实体。这个语法标签可以是本地成分也可以是语法角色。这样就形成了一个语法语义结合的模式。假如“linked fen-phen” 可以表示为:(/PRED/,/dobj/)(/PRED/,'fen-phen')('linked',/dobj/)('linked','fen-phen')不懂!!这个标签干什么用,是通过这个标签进行短语抽取么,抽取有干什么用。。。

6、这样,一个句子有多个aspect的标签因此句子的标注是一个多标签分类问题,转化为单标签分类问题处理:Label combination(LC)。这种方法有一个而潜在问题:多余每个定义的但标签类没有足够的训练集,二进制分解(BD)假定标签相互独立,效果更好。。(boutell et al.,2004;Tsoumakas and Katakis,2007)不懂。。。

7、由于在数据的不充足,通过限制级的数据集得到的分类模型很不准确,因此这里它采用办监督学习的方法,有效解决这个问题。通过transductive SVM寻找一个超平面,使得正面负面最大边缘化。

8、在连贯性方面,他用了HMM建立主题模型,以往都是基于word的topic模型,他用aspect,在topic和sentence间添加了一个aspect层。在上一步中,我们已经对每个句子进行了多aspect的标注。在HMM中用veiterbi算法考虑句子的顺序信息。得到所有句子排序的极大似然(句子流畅性的诀窍)。

9、对于句子抽取,依旧是打分,在原始只考虑frequency的基础上添加aspect打分,两者结合。最后再衡量整体文摘长度啊,想去句子的相似度的细节问题。。

 

疑问总结:

a、没有对于他建立的那个特征不是很明白。通过这个标签抽取的短语有什么用,她和后面的aspect什么关系。

b、他是说将HMM中之前以词为单位的研究,变成了句子,并且添加了aspect层??然后后期的veiterbi算法也变成了针对句子的??这个句子是什么句子,所有的句子么。。那这个产生的又不是摘要和摘要的连贯性有什么关系。。。。不是应该先打分后排序吗,这一块怎么理解。。。

 

关于我的想法:

a、这篇文章提到的信息抽取虽然没看懂,但是这个内容用到自动文摘里面应该满给力,比如灾难发生时间,可能我的统计方法根本不会把这个时间得到,但是信息抽取可以直接得到,快速有效。

b、关于对于句子打分,是不是之前看的那篇文章的LU算法会比这个好呢,在LU的基础上再融合aspect打分~~

c、句子排序方面,我并么有看到他怎么利用aspect信息了,师兄不是说我们可以根据aspect得到一个非扁平的结构,指导句子排序吗,我觉得可行。这里面的veiterbi算法是不是还是扁平的~~

d、对于抽取句子的排序,我觉得这篇文章的方法不好撒,局部最优撒,借鉴之前的文章,使用整数规划模型来吧。我们是不是可以搞成多目标规划呢。。。

posted on 2012-07-03 14:52  Vanior  阅读(188)  评论(0编辑  收藏  举报

导航