关于 Indentifying Non-explicit Citing Sentences for Citation-based Summarization

边读边总结疑问,英语差的惹不起。。

1、本文研究的是基于背景语料形成文摘。他认为背景语料分为两种,即引用信息明确和引用信息不明确两种,其中不不明确往往是因为内容果断等原因,因此需要将这些引用句进行扩展,得到上下文,确定引用的真正意图。

2、问题:他说将每个句子视为一个随机变量,这个随机变量的值取决于目标文章的状态。然后他说用图模型产生这些随机变量。。。对自然语言接触太短,这个不懂!!!

3、用的数据是来自于ACL,十篇关于NLP的文章,包含203个参考文献,数据给出编号、坐着、title、年份、引用数、引用句子数等。其中引用分为引用文献在AAn中和不在AAN中。

4、对于背景预料的研究,首先,开始关注引用时并没有让这些句子直接出现在文摘中,后期,直接使用引用句生成文摘,再后期,根据引用句在本文中的位置进行分类,比如指示词之类的~~“own,other,background,textual,aim,basis,contrast”。

5、其实预处理工作,对文章中的句子进行标注,确切引用用C,不确切已经用用1,其他用0。这一节的目的就是通过样本集中的203个标注进行训练学习,最终构建模型实现自动识别引用标记(C,1,0)。

6、后面讲的那个k没看懂,不清不楚的,两个参数一个是什么的相对观测值,一个是什么分配类别的概率,这个类别咋定的撒,类别间不应该是等概率的吗。然后k定0.85为一个阀值,不断随机,直到随机结果使得k>=0.85,则我们认为这个结果是可以接受的,认为是可信的。(接受说明了神马。。没看懂。。)这样标注就结束了!!

还有对于这个标注方法看的不是很懂,也很怀疑这样训练出来的模型是否可以在新的数据上起作用。。。

7、分析阶段。做直方图统计得到,一些文章只引用了一个句子,而实际上,他是被引用了9次,都是同一个句子。这种高偏态分布说明了啥!!没看懂。。。

8、后面套用了马尔科夫随机场进行构建相邻句子间的关系,以每个句子为一个节点。图模型中包含隐藏节点和观测节点,每个隐藏节点对于一个观测节点,观测节点间有一个转换概率,这个概率说是统计得到??统计什么,概率的意义是什么??我们之前的那个预处理标注又有什么用。。不懂不懂!为什么后面他的是隐藏节点间存在转化关系,不是应该是观测节点间吗,然后通过观测节点反映隐藏节点见的关系。

9、论文用BP(Belief Propagation)算法计算后验概率或者说边缘概率,这个算法完全不懂,正在科普。。。实在不行是不是可以用FB算法。

没看完。。。

 

 

 

 

posted on 2012-06-26 21:21  Vanior  阅读(228)  评论(0编辑  收藏  举报

导航