看论文

看了一些论文：《汉语自动句法分析的理论和方法》、
《词语位置加权TextRank的关键词抽取研究》、
《利用统计量和语言学规则提取多字词表达》、
《基于超图的文本摘要与关键词协同抽取研究》、
《基于最大熵的依存句法分析》、
《基于序列标注的中文依存句法分析方法》、
《中文维基百科的实体分类研究》。

第一篇论文是句法分析的一个Tutorial。

TextRank由PageRank而来，它利用投票机制来确定某个词的权重即重要度，是一个非监督方法，不需要语料库。但我在微博上看到有人说TextRank在实用里复杂度过高，用的不多。

第三篇论文说的是互信息和熵。互信息体现的是两个变量之间的相互依赖程度。熵指的是不确定性，所以可以用左右熵来判别边界。论文里给出了公式。

第四篇论文是单文本摘要，把一篇文本按句子构造图。顶点是一个词。边是句子。句子的权重用一个称为“主体信息密度”的公式定义。然后用PageRank方法在图上游走，定义一个阈值（0.85），当相邻两次迭代的绝对值之差小于阈值时停止游走，排序输出得分最高的若干词为关键词，得分最高的若干句子为摘要。论文里没说词的权重的定义方法，应该是初始化为一个相同的值。

第五篇论文用的是最大生成树方法，句法关系权重用最大熵模型来计算。

第六篇论文是把依存文法转换成标注问题。两个词之间的依存关系主要有两个因素：方向和距离。论文里用形式：【+/-】d POS 来表示依存关系。+/-表示方向。d是距离，指从某个方向开始第d个具有相同词性为POS的词。论文里把通常使用的词性分为了两层,粗粒度和细粒度，比如n和nr。在支配词不是名词时，用粗粒度计算d；在支配词是名词时，用细粒度计算d。这样就可以用标注来表示计算依存关系。用crf模型训练，用viterbi算法解码。

第七篇论文是把中文维基百科的页面里的信息框、分类框和摘要中的相关内容作为三个基本特征，用LibSVM计算，对中文维基百科条目进行了实体分类。

posted @ 2016-04-01 10:46 StevenLuke 阅读(188) 评论(0) 收藏举报

刷新页面返回顶部

StevenLuke

看论文

公告