知识图谱-远程监督关系提取

1. 前言

今天介绍一篇2017年的论文《Distant Supervision for Relation Extraction with Sentence-level Attention and Entity Deions》，这篇论文主要是介绍通过句子层面的注意力和实体知识来提高远程监督抽取关系的准确度。

关系抽取的远程监督方法通过知识库与非结构化文本对其的方式，自动标注数据，解决人工标注的问题。但是，现有方法存在无法选择有效的句子、缺少实体知识的缺陷。

无法选择有效的句子是指模型无法判断关系实例对应的句子集（bag）中哪个句子是与关系相关的，在建模时能会将不是表达某种关系的句子当做表达这种关系的句子，或者将表达某种关系的句子当做不表达这种关系的句子，从而引入噪声数据。
缺少实体知识，例如“[Nevada] then sanctioned the sport , and the U.F.C. held its first show in [Las Vegas] in September 2001. ”如果不知道 Nevada 和 Las Vegas 是两座城市，则很难判断他们知识是地理位置上的包含关系。

论文的主要方法分为三部分：句子特征提取、实体表示和bag特征提取。

句子特征提取结构如下：

Piecewise Max-pooling：传统的max-pooling的作用是提取最重要的特征，而Piecewise Max-pooling是把向量分为几段，然后分别提取每段的max特征，方便捕捉更多的特征信息，给后面微调提供支持。

实体表示在词向量的基础上，使用实体描述信息对向量表示进行调整，形成最终的实体向量表示。最终的实体向量 = 实体表示词向量 + 实体描述信息

模型主要思想是，使用CNN对实体的描述信息进行特征提取，得到的特征向量作为实体的特征表示，模型的训练目标是使得实体的词向量表示和从描述信息得到的实体特征表示尽可能接近。

bag特征提取模型的关键在句子权重学习，在得到bag中每个句子的权重后，对bag中所有句子的特征向量进行加权求和，得到bag的特征向量表示。

bag特征提取模型如下图：

模型中用到了类似TransE的实体关系表示的思想：\(e_1+r=e_2\)。使用\(r=e_2-e_1\)作为实体间关系信息的表达，与句子特征向量相拼接，进行后续的权重学习。

这篇论文在当时提时是SOTA的表现。总结下论文的主要内容。

posted @ 2018-11-04 16:48 hyc339408769 阅读(8875) 评论(0) 编辑收藏举报

刷新页面返回顶部