论文阅读:An Argument Extraction Decoder in Open Information Extraction
题目:开放信息抽取中的一种参数抽取解码器
TechBeat人工智能社区第394期线上Talk -谢菲尔德大学NLP组的系列Talk第②场-开放信息抽取:方法和应用 -发布在ECIR2021上的最新模型)
论文地址:https://link.springer.com/chapter/10.1007/978-3-030-72113-8_21
一:简介:
在本文中,我们提出了一种特征融合解码器,用于开放信息提取(Open IE)中的参数提取,其中我们将参数提取作为一个依赖于谓词的任务来挑战。因此,我们创建了一个特定于谓词的嵌入层,以允许参数提取模块在使用预训练的 BERT 模型来实现谓词后,完全共享给定句子的谓词信息和上下文信息。之后,我们提出了一个在参数提取中的解码器,它利用令牌特征和跨度特征来提取参数,其中两个步骤分别是通过令牌特征识别参数边界和通过跨度特征标记参数角色。实验结果表明,所提出的解码器显着提高了提取性能。我们的方法在 OIE2016 和 Re-OIE2016 这两个基准上建立了新的最先进的结果。
二:预备知识:
开放信息提取(Open IE)已广泛用于许多下游任务 [12],例如词嵌入学习 [16]、文档摘要 [8] 和问答 [7],其目的是生成包含以下内容的结构化元组谓词及其参数表示给定句子中的断言。Open IE 的示例如表 1 所示。
表 1. 一个例句和相应的 Open IE 提取。提取物由谓词短语(下划线)和参数列表组成。所提出的解码器应用于参数提取,分两步提取参数:识别参数边界和标记参数角色。
以前的神经 Open IE 系统通常将 Open IE 视为管道任务,包括以下两个独立的子任务:(1)首先提取谓词,以及(2)稍后提取相应的参数 [18, 20]。然而,研究人员观察到谓词和参数的提取是紧密交织的[9, 2],这意味着这两个子任务在现实中并不是独立的。这促使我们将它们视为依赖/联合而不是独立顺序。我们的工作侧重于参数提取,并将其视为依赖于谓词的任务。
此外,现有的 Open IE 方法在参数提取中利用了不同级别的特征。例如,斯坦诺夫斯基等人 [18] 使用令牌特征通过带有自定义 BIO 标签的序列标记方法提取参数。詹等人 [20]采用基于跨度的方法,枚举所有可能的候选跨度并通过跨度特征用标签对它们进行评分。然而,大内等人[13] 提出序列标记方法比基于跨度的方法更准确地生成跨度边界,但基于跨度的方法比序列标记模型更准确地产生标签预测。这促使我们在参数提取中联合使用令牌特征和跨度特征,这就是我们提出的解码器。
在本文中,我们提出了一种用于在 Open IE 框架中提取参数的多级特征融合解码器。该框架如图 1 所示。
图 1. 我们的Open IE 框架的架构,包括一个谓词提取模块、一个用于参数生成目的的特定于谓词的嵌入层,以及一个参数提取模块,其中解码器被认为是我们的主要贡献。
首先,我们训练一个基于 BERT 的谓词提取模型,然后创建一个特定于谓词的嵌入层作为参数提取模块的输入。与管道方法不同,特定于谓词的嵌入层允许参数提取以共享来自谓词提取的有用特征。其次,我们提供了一个用于参数提取的解码器作为我们的独特贡献,它共同利用了令牌特征和跨度特征。我们的解码器分两步提取参数:用标记特征识别参数的边界,用跨度特征标记参数的作用,这些特征在整体解码中融合。
为了更好地理解我们的 OpenIE 框架和图 1 所示的建议解码器,我们在表 1 中展示了我们方法的提取过程。请注意,最终目标是提取由谓词和参数列表组成的结构化元组。我们有一个例句,例如“Costco has missed the trend this summer.”。在表 1 中。首先,我们将这句话输入到图 1中的预训练 BERT 模型中,以提取其谓词“has(B-pred)”、“missed(I-pred)”。之后,参数提取模型为带有 BIO 标签的句子提取参数边界,然后是角色标签“A0”代表“Costco”,“A1”代表“the trend”,“A2”代表“this summer” .
我们在两个 Open IE 基准上进行了实验。 OIE2016 上的实验结果表明,我们的方法比最先进的方法(SpanOIE [20])高出约4.7 F1 点。
三:带有我们提议的解码器的开放式 IE 框架
图1中的框架主要由三部分组成:
(1)谓词提取; (2) LSTM 的谓词特定嵌入; (3) 使用解码器提取参数。
3.1 谓词提取
如图1所示,我们在 BERT 编码器之上添加了一个线性 softmax 层来提取谓词。具体来说,线性 softmax 层作用于最终生成的上下文化词表示。因此,给定一个句子 S = (w1, w2,····, wn),BERT 模型 [5] 生成了一个上下文词嵌入列表 (h1,···,hi,···, hn),其中每个 hi表示第 i 个输入标记 wi。然后,谓词提取过程预测 BIO 标签列表以识别谓词。用于谓词提取的第 i个标记的标签分布计算如下:
其中 W1和b1是可训练的权重矩阵和谓词提取的偏差,hi 是第i个令牌的上下文化令牌嵌入。
图 2.作为 LSTM 编码器输入的谓词特定嵌入层。
3.2 谓词特定的嵌入层
首先,这个特定于谓词的嵌入层适用于参数提取层。特别是,该层是 LSTM 编码器的输入。
这个嵌入层的动机在于:(1)我们基于生成的谓词提取参数,使谓词提取和参数提取相互依赖;(2) 使用注意机制理论将谓词的表示应用于上下文化的词嵌入; (3) 特定于谓词的嵌入允许LSTM 直接访问谓词信息,因为我们在其上连接了谓词的表示。
图 2 展示了特定于谓词的嵌入层的流程图,其中输出是 LSTM 编码器的输入。形式上,我们将 LSTM 网络的输入定义为:
其中 h′i是LSTM 的第 i 个输入向量,hp 表示谓词的上下文嵌入,⊕ 是连接算子,αi是分配给令牌嵌入 hi的权重。
我们利用选择性注意[11] 根据谓词表示对每个令牌嵌入进行加权,以便根据提取的谓词。选择性注意学习识别与提取的谓词高度相关的标记,而不是平等地对待每个标记表示。每个令牌的权重 αi 如下获得:
LSTM 产生的隐藏状态公式如下:
其中li是第 i个输出隐藏状态,h′i是第 i 个输入向量。
3.3 使用建议的解码器进行参数提取
如图1 所示,参数提取模块由LSTM编码器和我们提出的解码器组成。所提出的解码器融合了多级特征来提取参数。
我们的解码过程将参数提取分为图 3 中的两个步骤:(1)使用 BIO 标记识别参数边界; (2) 用跨度分类标记论点的作用。
图 3 多级特征融合解码器分两步提取参数
识别参数边界 为了识别参数边界,我们采用 BIO 标签来指示参数短语的开始和结束。与使用自定义 BIO 标记(即 B-A0、I-A0、B-A1、B-A1、B-A2...)直接提取参数的先前工作 [18] 相比,我们方法中的 BIO标记如'B'、'I'和'O',仅用于识别边界。具体来说,我们在 LSTM 网络之上应用一个线性层和一个 softmax 函数,为每个单词生成标签。形式上,参数边界标记的第 i 个标记的输出分布如下:
其中 li是LSTM 网络生成的第 i个令牌的隐藏状态,W2和 b2是训练的参数矩阵和偏差。
标记论点的作用 我们采用跨度级特征来预测论点的作用。形式上,跨度特征构造如下:
其中si:j 是由BIO 标签标识的参数跨度,从 i 开始到 j 结束,li 和 lj 是 LSTM 网络产生的开始标记和结束标记的表示,表示连接操作。
然后将跨度特征馈送到线性层以获得每个跨度的不同标签的分数。
其中 W3和b3是可训练参数矩阵和偏差,y 是角色标签。对于每个跨度si:j,我们选择得分最高的标签作为其最终结果:
3.4 训练
为了训练我们的Open IE 框架,我们共同最小化了三个损失函数。对于每个训练样本 S,损失函数公式如下:
其中 Ypred 是谓词提取的黄金标签,Yargu_bound 是参数边界识别的黄金标签,y^ 是跨度 Si:j的黄金角色
请注意,我们在参数边界识别和参数角色标记的训练过程中使用了教师强制。有关教师强迫的详细信息,我们请读者参考 [19]。
四:实验
4.1 数据
我们使用[20]处理的训练数据集,它使用维基百科转储20180101中所有少于40个单词的句子并提取相应的由已退出的 Open IE 系统 OpenIE 4 [12] 生成的 n 元信息元组。由于其合理的计算成本和生成质量,OpenIE 4 的提取被用作许多神经 OpenIE 系统 [3、20、10] 中的训练数据。与 [20] 不同,为了减少噪声,我们只保留置信度分数高于 0.9的元组。最后,我们的训练数据集中共有 2,175,294 个(句子、元组)对。
对于测试数据,我们在两个开放 IE 基准数据集 OIE2016 [15] 和 Re-OIE2016 [20] 上测试我们的模型。 OIE2016 是一个广泛使用的 Open IE 测试数据集,它自动从 QA-SRL 传输过来。我们使用 OIE2016 的一个子集,其中包含 600 个句子和 1,730 次提取【4】。我们还利用了 [20] 中提出的 Re-OIE2016 基准。 Re-OIE2016 在 OIE2016 的基础上手动重新标记,以减少 OIE2016 中包含 595 个句子和 1,506 次提取的不正确元组。
【4】这个子集也被用作 [18] 和 [20] 中的测试数据
4.2 设置
我们将预训练的 BERT 模型 [5] 作为我们的基本句子编码器。我们使用的 BERT 模型是在 BooksCorpus 上预训练的基于 bert-base-cases 的模型,它由 12 个变换器层、12 个注意力头和 768 个维度状态组成。我们使用一个隐藏状态大小为 1536 的单层 LSTM 网络作为我们的第二个编码器。
对于超参数,我们使用 BERT 中报告的类似设置。我们将学习率设置为 5e-5,并使用线性学习率衰减计划,并为优化器在 2e-3次训练更新上预热。我们还将Transformer 块的 dropout 率设置为 0.1,将分类器的 dropout 率设置为 0.2。我们将训练数据集分成八个分区和随机样本实例来训练我们的模型。这减少了 epoch 的大小,从而减少了训练时间。我们将批量大小设置为 64,并训练我们的模型四个时期。
4.3 基线
我们将我们的方法与基于规则的 Open IE 系统进行比较,包括 ClauseIE [4] 和 OpenIE 4 [12]。我们还将我们的方法与最先进的神经开放 IE 系统进行比较,包括 RNN OIE [18]、SpanOIE [20]、Seq2Seq OIE [3] 和 IMoJIE [10]。 RNN OIE 是一个序列标注 Open IE 系统,SpanOIE 是一个跨度预测 Open IE 系统。它们都是流水线方法。 seq2seq OIE 和IMoJIE模型是基于序列生成的Open IE 系统,它只能产生二进制提取(主谓宾元组)而不是 n元提取。 IMoJIE 模型采用 BERT 作为基本编码器。请注意,除了 RNN OIE 之外,所有神经 Open IE 模型都在与我们的方法【5】相同的训练集上进行训练。 RNN OIE 在数据集上进行训练从 QAMR [18] 转移。我们通过直接评估他们对 OIE2016 测试集的提取来测试基线,该测试集发表在 [15] 或相关发表的论文中。
【5】唯一的区别是不同基线选择的训练数据的置信度得分,详情请查看第 3.1 节。
4.4 指标
我们根据三个流行的指标评估所有方法。首先,精确召回 (PR) 曲线广泛用于评估 Open IE 系统在不同提取置信度阈值下的性能。其次,我们计算 PR 曲线下面积 (PR-AUC) 以获得对整体系统性能的整体测量。最后,对于每个系统,我们使用在开发集上优化的置信度阈值报告单个 F1 分数。请注意,由于我们在工作中没有实现置信度评分功能,因此我们将所有提取结果的置信度评分设置为 1。因此,我们的 PR 曲线将是一条直线。我们还将所有提取视为 F1 评估中的置信结果(即,我们方法的置信度阈值设置为 1)。此外,为了验证我们方法的稳健性,第 4 节中使用的结果是我们模型 5 次运行的平均性能。
五:讨论与分析
5.1 整体分析
我们使用 [15,20] 中发布的脚本来评估基线模型在 OIE2016和 Re-OIE2016 数据集【6】上的精度和召回率。结果如表2所示。
【6】请注意,[15] 中报告的结果与我们的结果相矛盾。那是因为作者改变了评估脚本的匹配功能。虽然这会改变不同系统的绝对性能数字,但不会改变任何测试系统的相对性能。
表 2. OIE2016 和 Re-OIE2016 数据集上开放 IE 系统的 P-R 曲线下面积 (AUC) 和 f1-score。
我们发现我们的方法明显优于所有基线。我们的方法在 OIE2016上取得了 0.551 的最佳 AUC 分数,超过了 Span
OIE提高了 6.2%,它比Re-OIE2016 获得了 0.703 的最佳AUC 分数,比 IMoJIE 高出 1.1%。与 RNN OIE(序列标记模型)和 SpanOIE(跨度预测模型)相比,我们的方法在精度和召回率方面取得了进步,这证明了联合学习和特征融合的有效性。更重要的是,尽管 IMoJIE 在Re-OIE2016 上的表现非常出色,但我们发现我们的方法获得了更好的召回分数。更重要的是,我们的方法倾向于找到更完整的谓词,这导致参数提取的召回率更高。与基于规则的方法相比,我们的方法在 AUC 和 F-1 分数上都获得了比 Open IE 4更好的性能,这表明我们的模型能够从良好的提取中学习。

OIE 2016 上的 PR 曲线结果如图 4 所示。结果表明,我们方法的 PR 曲线始终高于其他基线。我们发现我们的方法相对于其他基线的改进来自以下两个方面:(1)我们的方法可以找到比其他方法更多的谓词,从而导致更高的召回率; (2) 由于精确的论点角色标签,我们的方法在寻找论点方面更加准确。
5.2 联合建模分析
为了进一步研究 Open IE 的两个子任务和我们的谓词特定嵌入层的联合学习,我们将我们的方法 (Joint) 与管道方法 (Pipeline) 进行比较,后者采用两个独立的标签模型进行谓词提取和参数提取.实验结果如表3所示。
在表 3 中,我们发现管道模型在谓词提取方面取得了最佳的 F1 分数,为 0.882。我们的联合模型达到了可比的 F1,在谓词提取中得分为 0.859。我们得出这样的结论,谓词提取从参数提取过程中几乎没有收益。我们分析的原因是谓词提取相对容易学习。至于参数提取,我们看到联合模型优于管道方法。我们说参数提取与谓词提取过程高度相关,通过我们的谓词特定嵌入层与谓词提取过程共享有用的特征,可以更好地预测参数提取过程。另一点是性能的提升,主要来自精度的提升。召回率相对一致。
表 3 管道方法和我们的多任务学习方法的比较。在OIE2016上进行测试。
5.3 特征融合分析
我们在这里评估多级特征融合的解码器。我们将我们的方法与仅利用令牌特征(无跨度特征)的定制 BIO 标记方法 [18] 进行比较。我们在两个因素上测试所提出的解码器:参数边界识别和参数角色标签。如果参数边界与黄金注释匹配,无论其角色标签如何,我们都认为它是正确的,并且我们评估其边界与黄金注释匹配的参数角色标签。结果如表4所示。
表 4. 自定义BIO 方法(无跨度特征)与我们的方法的比较。在 OIE2016 上测试。
如表 4 所示,我们的方法在参数边界识别和参数角色标记方面都优于基线。由于我们应用简化的 BIO 标签来识别参数的边界,因此我们的模型比定制的 BIO 标签具有更小的输出空间。这可能是我们更好的边界识别性能的原因。此外,跨度特征在参数角色标记中贡献很大。这表明跨度级特征比标记级特征更适合进行角色标签预测。
我们还在表 5 中展示了提取示例,以展示使用多级特征的好处。根据结果,RNN OIE 可以处理正常字序的输入。但是,它被将对象视为主语的反词序输入混淆了。这可能是因为令牌特征受位置信息支配,当输入的词序反转时,很难预测正确的参数角色。通过使用跨度特征,我们的方法显示了揭示导致正确提取的主题和谓词之间的语义依赖关系的潜力。
第一个句子有一个正常的词序(即,主语-动词-宾语(SVO)顺序)。第二个句子有一个倒置的词序(即 OVS 顺序)。
5.4 错误分析
我们从 OIE2016 测试集中随机抽取 50 个句子,并分析我们的方法产生的提取错误。我们发现了几个常见的问题,这些问题占错误的主要部分。
– 冗余提取:虽然我们的方法很少生成重复的元组(与基于生成的 Open IE 系统如 IMoJIE 相比),但它仍然存在冗余问题。近 52% 的错误是由提取的元组中不相关的词引起的。
– 不完整的提取:不完整的提取(即缺少主题或对象)贡献了近 58% 的召回错误。我们发现这主要是由于参数边界识别过程的错误。
– 带有名词化谓词的提取:带有名词或名词性谓词的提取很难提取,它占所有召回错误的 34%。我们推测使用名词谓词增强训练实例可以减少这个问题。
六 :相关工作
Open IE 最初被引入以扩展传统的信息提取,从而提取给定句子所断言的所有命题。大多数开放式 IE 系统旨在提取二元命题(即主谓宾元组)或 n 元关系(即参数和谓词)。一些系统还努力以其他格式提取,例如嵌套命题。
传统的开放式 IE 方法使用手工设计的模式通过句法约束来提取谓词-参数结构。 ReVerb [6] 从词性标签、OLLIE [14]、ClauseIE[4] 和 PropS 中提取 Open IE 命题[17] 后处理依赖树。 Open IE4 [12] 从语义角色标签结构中提取元组。最近,神经开放式 IE 方法取得了巨大成功。 [18] 基于 BiLSTM标记器和 BIO 标记方案开发了 RNN OIE,这是 Open IE 的第一个监督模型。也有人尝试在生成设置中执行 Open IE。 [3] 构建了 Seq2seq OIE,它采用神经序列到序列框架和复制机制来生成二进制提取。为了解决 Seq2seq OIE 的卡顿问题,IMoJIE [10] 通过将生成的提取添加到编码器中,使用以先前元组为条件的元组的顺序解码。 [20] 为 Open IE 引入了跨度预测模型,该模型利用跨度级特征来提取参数短语。
以前关于 Open IE 的研究缺乏用于训练和评估的标记 Open IE 数据集。最近,[18] 创建了一个大型的 Open IE 训练语料库,该语料库源自 Question-AnswerMeaning Representation。[3] 通过使用 Open IE4 在Wikipedia 上执行提取,构建了一个大型但嘈杂的注释语料库。 [20] 还创建了一个类似于 [3] 的大型注释语料库,但用 n 元提取代替了二进制提取。为了提高训练数据集的质量,[10] 提出了一种新技术,以完全无监督的方式将多个 Open IE 数据集组合成一个综合数据集。对于评估基准,[15] 通过自动翻译 QA-SRL 创建了第一个大型开放 IE 语料库 OIE2016,它被广泛用作评估测试集。 [1] 公开了一个众包数据集 CarB,该数据集具有新的评估规则,可以惩罚过长的提取。 [20] 手动重新标记数据集 OIE2016 以减少噪声,并发布了新的基准 Re-OIE2016。
七:结论和未来的工作
在本文中,我们提出了一种用于 Open IE 中参数提取的特征融合解码器,它分两步提取参数并利用多级特征。我们的系统在 OIE2016 和 Re-OIE2016 这两个 Open IE 基准测试中取得了最先进的结果。此外,我们进行了广泛的分析,发现依赖于谓词的参数提取提高了整体 Open IE 性能,跨度特征有助于我们的模型更准确地标记参数角色。
对于未来的研究,我们将进一步提高 Open IE的性能并研究更复杂的提取结果,例如嵌套元组。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!