看论文

看了一些论文:《汉语自动句法分析的理论和方法》、
《词语位置加权TextRank的关键词抽取研究》、
《利用统计量和语言学规则提取多字词表达》、
《基于超图的文本摘要与关键词协同抽取研究》、
《基于最大熵的依存句法分析》、
《基于序列标注的中文依存句法分析方法》、
《中文维基百科的实体分类研究》。


第一篇论文是句法分析的一个Tutorial。


TextRank由PageRank而来,它利用投票机制来确定某个词的权重即重要度,是一个非监督方法,不需要语料库。但我在微博上看到有人说TextRank在实用里复杂度过高,用的不多。


第三篇论文说的是互信息和熵。互信息体现的是两个变量之间的相互依赖程度。熵指的是不确定性,所以可以用左右熵来判别边界。论文里给出了公式。


第四篇论文是单文本摘要,把一篇文本按句子构造图。顶点是一个词。边是句子。句子的权重用一个称为“主体信息密度”的公式定义。然后用PageRank方法在图上游走,定义一个阈值(0.85),当相邻两次迭代的绝对值之差小于阈值时停止游走,排序输出得分最高的若干词为关键词,得分最高的若干句子为摘要。论文里没说词的权重的定义方法,应该是初始化为一个相同的值。


第五篇论文用的是最大生成树方法,句法关系权重用最大熵模型来计算。


第六篇论文是把依存文法转换成标注问题。两个词之间的依存关系主要有两个因素:方向和距离。论文里用形式:【+/-】d POS 来表示依存关系。+/-表示方向。d是距离,指从某个方向开始第d个具有相同词性为POS的词。论文里把通常使用的词性分为了两层,粗粒度和细粒度,比如n和nr。在支配词不是名词时,用粗粒度计算d;在支配词是名词时,用细粒度计算d。这样就可以用标注来表示计算依存关系。用crf模型训练,用viterbi算法解码。


第七篇论文是把中文维基百科的页面里的信息框、分类框和摘要中的相关内容作为三个基本特征,用LibSVM计算,对中文维基百科条目进行了实体分类。
posted @ 2016-04-01 10:46  StevenLuke  阅读(158)  评论(0编辑  收藏  举报