随笔 - 217  文章 - 1  评论 - 3  阅读 - 62248

CasRel 一种新的用于关系三重抽取的级联二进制标记框架

1介绍

知识图的关键成分是关系事实,其中大多数由语义关系连接的两个实体组成。这些事实的形式为(主语、关系、宾语)或(s、r、o),称为关系三元组。从自然语言文本中提取关系三元组是构建大规模知识图的关键步骤。

关系三重抽取的早期工作采用了流水线方法 ,它首先识别句子中的所有实体,然后对每个实体对进行关系分类。这种方法往往会遇到错误传播问题,因为早期阶段的错误无法在后期纠正。为了解决这个问题,随后的工作提出了实体和关系的联合学习,其中包括基于特征的模型,最近,基于神经网络的模型。通过用学习的表示替换手动构建的特征,基于神经网络的模型在三重提取任务中取得了相当大的成功。

然而,大多数现有方法不能有效地处理一个句子包含多个相互重叠的关系三元组的场景。图1说明了这些场景,其中三元组共享句子中的一个或两个实体。这种重叠的三重问题直接挑战了传统的序列标记方案,该方案假设每个标记只带有一个标记,这也给关系分类方法带来了很大的困难,其中假设实体对最多包含一个关系。曾等(2018)是最早考虑关系三重抽取中重叠三重问题的人之一。他们介绍了不同重叠模式的类别,如图1所示,并提出了一个序列到序列(Seq2Seq)模型,该模型具有复制机制以提取三元组。基于Seq2Seq模型,他们进一步研究了提取顺序的影响(Zeng等人,2019),并通过强化学习获得了显著改善。Fu等人(2019)还通过使用基于图卷积网络(GCNs)的模型将文本建模为关系图,研究了重叠三重问题。

尽管他们取得了成功,但之前关于提取重叠三元组的工作仍有许多需要改进的地方。具体来说,它们都将关系视为要分配给实体对的离散标签。这种公式使关系分类成为一个困难的机器学习问题。首先,阶级分布极不平衡。在所有提取的实体对中,大多数没有形成有效关系,产生了太多的负面示例。其次,当同一实体参与多个有效关系(重叠的三元组)时,分类器可能会混淆。如果没有足够的训练样本,分类器很难判断实体参与了哪些关系。因此,提取的三元组通常不完整且不准确。

在这项工作中,我们从三级关系三抽取权的原则公式开始。这就产生了一个通用的算法框架,通过设计来处理重叠的三重问题。该框架的核心是一种新的观点,即我们可以将关系建模为将主体映射到对象的函数,而不是将关系视为实体对上的离散标签。更准确地说,不是学习关系分类器f(s,o)→ r、 我们学习关系特定标记fr(s)→ o、 每一个都能识别特定关系下给定主体的可能对象;或者不返回object,表示给定主语和关系没有三元组。在此框架下,三重抽取是一个两步过程:首先,我们识别句子中所有可能的主语;然后,对于每个主题,我们应用特定于关系的标记器来同时识别所有可能的关系和相应的对象。

我们在CASREL中实现了上述思想,CASREL是一个端到端级联二进制标记框架。它由基于BERT的编码器模块、子对象标记模块和关系特定的对象标记模块组成。实证实验表明,即使在未预训练BERT编码器的情况下,该框架也大大优于现有方法,这表明了新框架本身的优越性。在采用预训练的BERT编码器后,该框架获得了更大的性能增益,表明了丰富的先验知识在三重提取任务中的重要性。

这项工作有以下主要贡献:

1.我们引入了一个新的视角,用一个有原则的问题公式重新审视关系三重提取任务,这意味着一个通用的算法框架,通过设计来解决重叠的三重问题。

2.我们将上述框架实例化为一个新的级联二进制标记模型,该模型位于Transformer编码器之上。这使得该模型能够将新型标记框架的功能与预训练的大规模语言模型中的先验知识相结合。

3.在两个公共数据集上的大量实验表明,该框架的性能明显优于最先进的方法,在两个数据集上的F1分数分别获得17.5和30.2的绝对增益。详细分析表明,我们的模型在所有场景中都得到了一致的改进。

2相关工作

 从非结构化自然语言文本中提取关系三元组是信息提取中一项研究得很好的任务。这也是构建大规模知识图(KG)的重要步骤,例如DBpedia(Auer等人,2007)、Freebase(Bollacker等人,2008)和knowledge V ault(Dong等人,2014)。

早期工作(Mintz等人,2009年;Gormley等人,2015年)以流水线方式处理任务。他们通过两个独立的步骤提取关系三元组:1)首先对输入句子运行命名实体识别(NER)以识别所有实体,2)然后对提取的实体对运行关系分类(RC)。流水线方法通常存在误差传播问题,忽略了这两个步骤之间的相关性。为了缓解这些问题,提出了许多旨在联合学习实体和关系的联合模型。

传统的级联模型(Yu和Lam,2010;Li和Ji,2014;Miwa和Sasaki,2014;Ren等人,2017)是基于特征的,严重依赖于特征工程,需要大量的手动工作。为了减少人工劳动,最近的研究已经研究了基于神经网络的方法,这些方法提供了最先进的性能。然而,大多数现有的神经模型(Miwa和Bansal,2016)仅通过参数共享而不是联合解码来实现实体和关系的联合学习。为了获得关系三元组,他们仍然必须将检测到的实体对传输到关系分类器,以识别实体之间的关系。分离的解码设置导致实体和关系的训练目标分离,这带来了一个缺点,即无法充分利用预测实体和关系之间的三级依赖关系。与这些工作不同的是,郑等人(2017)通过引入统一的标记方案实现了联合解码,并将关系三重提取任务转换为端到端序列标记问题,而不需要NER或RC。由于将实体和关系的信息集成到统一的标记方案中,因此该方法可以直接在三层级别将关系三元组作为一个整体建模。

虽然联合模型(有或没有联合解码)已经得到了很好的研究,但大多数以前的工作忽略了重叠关系三元组的问题。Zeng等人(2018)介绍了三种重叠三元组模式,并试图通过具有复制机制的序列到序列模型来解决该问题。最近,Fu等人(2019)也研究了该问题,并提出了一种基于图卷积网络的方法。尽管最初取得了成功,但这两种方法仍然将关系视为实体对的离散标签,这使得模型很难学习重叠的三元组。

我们的框架基于一个训练目标,该目标经过精心设计,可以直接将关系三元组作为一个整体建模(郑等人,2017),即通过联合解码来学习实体和关系。此外,我们将这些关系建模为将主体映射到对象的函数,这使其与以前的工作有很大不同。

3模型框架

 

 

关系三元组提取的目标是识别句子中所有可能的三元组(主语、关系、宾语),其中一些三元组可能与主语或宾语共享相同的实体。为了实现这一目标,我们直接对三元组进行建模,并在三元组级别上设计一个训练目标。这与之前的方法(Fu等人,2019年)不同,在之前的方法中,实体和关系的训练目标是单独定义的,而没有在三个层次上明确建模它们的集成。

形式上,给定训练集D中带注释的句子xj和xj中一组潜在重叠的三元组Tj={(s,r,o)},我们旨在最大化训练集D的数据可能性:

 

 

 

这个公式提供了几个好处。首先,由于数据可能性从三个级别开始,因此优化该可能性对应于直接优化三个级别的最终评估标准。其次,通过不假设多个三元组如何共享句子中的实体,它通过设计处理重叠三元组问题。第三,等式(3)中的分解启发了一种新的三重提取标记方案:我们学习了识别句子中主语实体的主语标记符p(s | xj);对于每个关系r,我们学习一个对象标记器pr(o | s,xj),它识别给定主题的关系特定对象。通过这种方式,我们可以将每个关系建模为将主题映射到对象的函数,而不是对(主题、对象)对的关系进行分类。

事实上,这种新颖的标记方案允许我们一次提取多个三元组:我们首先运行主语标记器来查找句子中所有可能的主语,然后对于找到的每个主语,应用关系特定的宾语标记器来查找所有相关关系和相应的对象。

上述通用框架中的关键组件,即主题标记器和关系特定对象标记器,可以通过多种方式实例化。在本文中,我们将其实例化为深度双向变换器BERT上的二进制标记器(Devlin等人,2019)。我们在下面描述其细节。

3.1Bert编码器

编码器模块从句子xj中提取特征信息xj,并将其输入后续的标记模块2。我们采用预训练的Bert模型(Devlin等人,2019)对上下文信息进行编码。

在这里,我们简要回顾了基于多层双向变换器的语言表示模型BERT。它旨在通过共同调节每个单词的左右语境来学习深度表征,最近在许多下游任务中证明了它的惊人有效性(Zhong等人,2019)。具体来说,它由N个相同的变压器块组成。我们将变压器块表示为T rans(x),其中x表示输入向量。

 

3.2级联解码器

现在,我们描述了受前面公式启发的新型级联二进制标记方案的实例。基本思想是通过两个级联步骤提取三元组。首先,我们从输入句子中检测主语。然后,对于每个候选主语,我们检查所有可能的关系,以查看关系是否可以将句子中的对象与该主语相关联。对应于这两个步骤,级联解码器由两个模块组成,如图2所示:主题标记器;和一组特定于关系的对象标记器。

主语标记器低层标记模块旨在通过直接解码由N层BERT编码器产生的编码向量hN来识别输入句子中所有可能的主语。更准确地说,它采用两个相同的二进制分类器分别检测主语的开始和结束位置,方法是为每个令牌分配一个二进制标记(0 \/1),该标记指示当前令牌是否对应于主语的开始或结束位置。主语标记器在每个令牌上的详细操作如下:

 

其中,pstart si和pend si分别表示将输入序列中的第i个令牌识别为主语的开始和结束位置的概率。如果概率超过某个阈值,则相应的令牌将被分配标签1,否则将被分配标签0。xi是输入序列中第i个令牌的编码表示,即xi=hN[i],其中W(·)表示可训练权重,b(·)表示偏差,σ表示sigmoid激活函数。主语标记器优化以下似然函数,以识别给定句子表示x的主语s的跨度:

 

对于多目标检测,我们采用最近的开始-结束对匹配原则,根据开始和结束位置标记的结果来确定任何目标的范围。例如,如图2所示,距离第一个开始标记“Jackie”最近的结束标记是“Brown”,因此第一个对象跨度的检测结果将是“Jackie R.Brown”。值得注意的是,为了将结束令牌与给定的开始令牌相匹配,我们不考虑其位置在给定令牌位置之前的令牌。如果由于给定句子中任何实体跨度的自然连续性,正确检测到起始和结束位置,则这种匹配策略能够保持任何实体跨度的完整性。

关系特定宾语标记器高级标记模块同时识别宾语以及与在较低级别获得的主语相关的关系。如图2所示,它由一组关系特定的宾语标记器组成,对于所有可能的关系,其结构与低级模块中的主语标记器相同。所有宾语标记器将同时为每个检测到的主语识别相应的宾语。

与主语标记器直接解码编码向量hN不同,关系特定宾语标记器也考虑了主语特征。关系特定宾语标记器在每个标记上的详细操作如下:

 

 

pstart oi和pend oi分别表示将输入序列中的第i个令牌识别为宾语的开始和结束位置的概率,vksub表示在低层模块中检测到的第k个主语的编码表示向量。

对于每个主语,我们迭代地对其应用相同的解码过程。注意,主语通常由多个令牌组成,为了使等式(9)和等式(10)中xi和vksub的相加成为可能,我们需要保持两个向量的维数一致。为此,我们将第k个主语的开始标记和结束标记之间的平均向量表示作为vksub。

关系r的宾语标记器优化了以下似然函数,以识别给定句子表示x和主语s的宾语o的跨度:

 

注意,在高级标记模块中,关系也由宾语标记器的输出决定。例如,检测到的对象“Jackie R.Brown”和候选对象“Washington”之间的关系“Work in”不成立。因此,关系“Work in”的宾语标记器不会识别“Washington”的范围,即开始和结束位置的输出都是零,如图2所示。相比之下,“出生地”的关系在“Jackie R.Brown”和“Washington”之间成立,因此相应的宾语标记器输出候选对象“Washington”的跨度。在此设置中,高级模块能够同时识别与在低级模块中检测到的主语有关的关系和宾语。

 3.3目标函数

 

4实验结果

我们还可以从表中观察到,现有模型在NYT和WebNLG数据集上的性能之间存在显著差距,我们认为这是由于它们在处理重叠三元组方面的缺陷造成的。更准确地说,如表1所示,我们可以发现NYT数据集主要由正常类句子组成,而WebNLG数据集中的大多数句子属于EPO和SEO类。两个数据集的这种不一致的数据分布导致所有基线在NYT上的性能相对较好,在WebNLG上的性能较差,这暴露了它们在提取重叠关系三元组方面的缺点。相比之下,CASREL模型及其变体(即CASRELrandom和CASRELLST M)在NYT和WebNLG数据集上都实现了稳定和有竞争力的性能,证明了拟议框架在解决重叠问题方面的有效性。 

不同类型句子的详细结果为了进一步研究所提出的CASREL框架提取重叠关系三元组的能力,我们对不同类型的句子进行了两个扩展实验,并与以前的工作进行了性能比较。

三种不同重叠模式的详细结果如图3所示。可以看出,大多数基线在正常、EPO和搜索引擎优化上的性能呈下降趋势,反映出从具有不同重叠模式的句子中提取关系三元组的难度越来越大。也就是说,在三种重叠模式中,普通类是最容易的模式,而EPO和SEO类是基线模型相对较难提取的模式。相比之下,拟议的CASREL模型在所有三种重叠模式上都具有一致的强大性能,

 

 

我们还验证了CASREL从具有不同三元组数的句子中提取关系三元组的能力。我们将句子分为五类,结果如表3所示。同样,CASREL模型在所有五个类中都取得了优异的性能。虽然发现大多数基线的性能随着句子包含的关系三元组数量的增加而降低并不奇怪,但从不同模型的性能变化中仍然可以观察到一些模式。与以前致力于解决关系三重抽取中重叠问题的工作相比,我们的模型受到输入句子复杂性增加的影响最小。尽管与最先进的方法CopyRRL相比,CASREL模型在所有五个类别上都有显著的改进(Zeng等人,2019),但两个数据集上F1分数的最大改进都来自最困难的类别(N)≥5) 这表明我们的模型比基线更适用于复杂场景。

 

这两个实验都验证了与现有方法相比,所提出的级联二进制标记框架在从复杂句子中提取多个(可能重叠的)关系三元组方面的优越性。以前的工作必须明确预测给定句子中包含的所有可能的关系类型,这是一项相当具有挑战性的任务,因此在其提取结果中缺少许多关系。相比之下,我们的CASREL模型会逐步预测关系类型,并倾向于从给定句子中提取尽可能多的关系三元组。我们将此归因于级联解码器的高级标记模块中的关系特定对象标记器设置,该模块同时考虑所有关系类型。

5结论

在本文中,我们介绍了一种新的级联二进制标记框架(CASREL),该框架源于关系三重抽取的原则问题公式。我们没有将关系建模为实体对的离散标签,而是将关系建模为将主体映射到对象的函数,这为重新审视关系三重提取任务提供了一个新的视角。因此,我们的模型可以同时从句子中提取多个关系三元组,而不存在重叠问题。我们在两个广泛使用的数据集上进行了大量实验,以验证所提出的CASREL框架的有效性。实验结果表明,在不同场景下,我们的模型的性能明显优于现有基线,尤其是在提取重叠关系三元组方面。

 

posted on   啥123  阅读(1109)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

点击右上角即可分享
微信分享提示