Distant Supervision for relation extraction without labeled data

远程监督：使用未标注语料做关系抽取

1. 背景：

关系抽取（某个人是否属于某个组织等）

关系抽取中使用的3种方法：

a) 监督学习

优点：准确率很高

缺点：1.手工标注金标语料代价昂贵，时间金钱上需要很大的开销，并且数量受限，得不到大量的训练数据; 2.领域受限，标注都是在一个特定的语料中，训练的系统受限于那个领域

b) 无监督学习

优点：可以使用大规模的数据，抽取出大量的关系

缺点：抽取的结果往往比较难映射到特定的知识库

c) Bootstrap learning

往往有低准确率的问题。

d) 远程监督

使用知识库（freebase）来获取weekly labeled training data。

特点：相比监督学习，使用知识库提供训练数据来取代人工标注获取训练数据，没有过拟合的问题和领域依赖的问题；比起无监督，不用解决聚类结果到关系的映射问题，并且使用大规模的训练数据可以得到丰富的特征。

2. 方法介绍

基本假设： 如果两个实体是某个关系的参与者，任意的一个包含这两个实体的句子都可能表达了这个关系。

训练阶段

使用 NET（named entity tagger）标注 persons organizations 和 locations；
对在freebase中出现的实体对提取特征，构造训练数据；
训练多类别逻辑斯特回归模型。

测试阶段：

使用 NET（named entity tagger）标注 persons organizations 和 locations
在句子中出现的每对实体都被考虑做为一个潜在的关系实例，作为测试数据
使用训练后的模型对实体对分类。

3. 特征选择

3.1. 词汇特征：

a) 两个实体中间的词序列；

b) 这些词的词性标记；

c) 标志位表示哪个实体出现在前面；

d) 大小为k的左窗口；

e) 大小为k的右窗口。

3.2. 句法特征：

a) 两个实体之间的最短依存路径；

b) 两个实体的左右窗口。

3.3. 命名实体tag特征：

人名、地名、组织名和其他

4. 其他注意的地方

连接特征来丢进多类逻辑斯特回归模型。

负例构造：随机选取不在freebase中的实体对（有错误的可能）

训练和测试数据构造：freebase中的关系实例一半用来训练，另一半用来测试。数据使用维基百科数据，2:1的训练和测试数据分配。测试时只对在训练时未出现（不属于训练时的freebase中）的实例对分类。

测试结果选择：对所有实体对分类，并对每对实体对分配一个分类结果的置信度。然后对它们的置信度排序，选取top n。

posted on 2014-09-04 21:15 Dream_Fish 阅读(1907) 评论(0) 收藏举报

刷新页面返回顶部

Dream_Fish

Distant Supervision for relation extraction without labeled data

Distant Supervision for relation extraction without labeled data

远程监督：使用未标注语料做关系抽取

1. 背景：

2. 方法介绍

3. 特征选择

3.1. 词汇特征：

3.2. 句法特征：

3.3. 命名实体tag特征：

4. 其他注意的地方

导航

公告