关于 Indentifying Non-explicit Citing Sentences for Citation-based Summarization

边读边总结疑问，英语差的惹不起。。

1、本文研究的是基于背景语料形成文摘。他认为背景语料分为两种，即引用信息明确和引用信息不明确两种，其中不不明确往往是因为内容果断等原因，因此需要将这些引用句进行扩展，得到上下文，确定引用的真正意图。

2、问题:他说将每个句子视为一个随机变量，这个随机变量的值取决于目标文章的状态。然后他说用图模型产生这些随机变量。。。对自然语言接触太短，这个不懂！！！

3、用的数据是来自于ACL，十篇关于NLP的文章，包含203个参考文献，数据给出编号、坐着、title、年份、引用数、引用句子数等。其中引用分为引用文献在AAn中和不在AAN中。

4、对于背景预料的研究，首先，开始关注引用时并没有让这些句子直接出现在文摘中，后期，直接使用引用句生成文摘，再后期，根据引用句在本文中的位置进行分类，比如指示词之类的~~“own,other,background,textual,aim,basis,contrast”。

5、其实预处理工作，对文章中的句子进行标注，确切引用用C，不确切已经用用1，其他用0。这一节的目的就是通过样本集中的203个标注进行训练学习，最终构建模型实现自动识别引用标记（C,1,0）。

6、后面讲的那个k没看懂，不清不楚的，两个参数一个是什么的相对观测值，一个是什么分配类别的概率，这个类别咋定的撒，类别间不应该是等概率的吗。然后k定0.85为一个阀值，不断随机，直到随机结果使得k>=0.85,则我们认为这个结果是可以接受的，认为是可信的。（接受说明了神马。。没看懂。。）这样标注就结束了！！

还有对于这个标注方法看的不是很懂，也很怀疑这样训练出来的模型是否可以在新的数据上起作用。。。

7、分析阶段。做直方图统计得到，一些文章只引用了一个句子，而实际上，他是被引用了9次，都是同一个句子。这种高偏态分布说明了啥！！没看懂。。。

8、后面套用了马尔科夫随机场进行构建相邻句子间的关系，以每个句子为一个节点。图模型中包含隐藏节点和观测节点，每个隐藏节点对于一个观测节点，观测节点间有一个转换概率，这个概率说是统计得到？？统计什么，概率的意义是什么？？我们之前的那个预处理标注又有什么用。。不懂不懂！为什么后面他的是隐藏节点间存在转化关系，不是应该是观测节点间吗，然后通过观测节点反映隐藏节点见的关系。

9、论文用BP（Belief Propagation）算法计算后验概率或者说边缘概率，这个算法完全不懂，正在科普。。。实在不行是不是可以用FB算法。

没看完。。。

posted on 2012-06-26 21:21 Vanior 阅读(228) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Vanior

关于 Indentifying Non-explicit Citing Sentences for Citation-based Summarization

公告

导航