既有钱又有闲|

Barn

园龄:4年9个月粉丝:3关注:0

论文阅读:基于深度学习的实体关系联合抽取研究综述

任乐,张仰森,刘帅康.基于深度学习的实体关系抽取研究综述[J].北京信息科技大学学报(自然科学版),2023,38(06):70-79+87.DOI:10.16508/j.cnki.11-5866/n.2023.06.010.

流水线方法

  • 传统的流水线方法将实体关系抽取分解为独立的命名实体识别和关系抽取两个子任务。

  首先,构建一个高效的命名实体识别器,从大规模非结构化文本语句中识别实体边界和类型。
  然后,将该命名实体识别器识别的实体与类型作为关系抽取任务中所用数据的标注。
  最后,通过关系抽取器得到两个实体之间的关系类别,进而组合成为结构化的实体关系三元组。

  • 流水线方法的缺点:
    • 错误累积。命名实体识别任务存在的误差会影响后续的关系抽取任务的性能,这使得流水线方法具有错误累积问题。
    • 缺少子任务间的信息交互。流水线方法忽略了两个子任务之间隐性特征关联,导致两个子任务之间缺乏交互,使得文本信息没有得到充分利用,限制了流水线方法的性能瓶颈。
    • 命名实体识别具有冗余实体。冗余实体是指从非结构化文本中识别的没有确定关系的实体。冗余实体参与关系抽取过程会增加关系分类的错误率。
    • 实体间长依赖关系难以识别。长依赖关系的识别需要文本全局信息,但是流水线方法忽略子任务之间的特征关联,具有一定的局限性。
    • 多元重叠关系问题。实体间存在多种关系,难以识别。

联合抽取模型

  • 实体关系联合抽取模型的主流构建方法:多模块-多步骤、多模块-单步骤以及单模块-单步骤。
    • 多模块:将一个联合模型分为多个模块,以共享参数的方式整合各个模块,并从文本中抽取三元组。
    • 按照是否是一次性将三元组预测成功,可将其分为多步骤和单步骤两种方法。
    • 多步骤抽取三元组的方法具有级联冗余错误,为解决这一问题,研究者采用联合解码的方式一步抽取三元组,提升了联合模型性能。
  • 联合抽取模型包括基于特征工程的方法和基于深度学习的方法。

基于特征工程的方法

  • 主要有四类模型:整数线性规划模型、卡片金字塔解析模型、概率图模型和结构化预测模型。
  • 这四种模型都需要依赖大量人工提取的特征规则,具有高成本、低效率的缺点。

基于深度学习的实体关系联合抽取

多模块-多步骤

  • 多模块-多步骤可以分为三种:
  • 实体域映射到关系域模型:先抽取出文本中全部实体,然后对每个实体对做关系分类。
    • Miwa等在2016年提出的基于端到端的树形结构实体关系联合抽取模型。(存在依存句法树的传递误差;实体识别和关系抽取有先后次序,没有做到真正同步。)
    • Katiyar等提出了一种基于注意力机制的循环神经网络联合模型,实现实体与关系的联合抽取。
    • 2018年Giannis等将实体关系联合抽取看作一个多头选择问题。(初步解决了实体间的多重关系问题,但具有冗余实体。)
    • Tan等提出一种TME模型,该模型通过使用翻译机制对多重关系识别结果进行重新排序,能同时自适应地抽取单句中多个三元组。
    • Fu等考虑重叠关系间的相互作用,采用图卷积神经网络进一步提升了联合模型性能。
    • 禹克强等提出一种基于双向语义的中文实体关系联合抽取模型。

    难点:
    (1)如何更准确地识别实体边界与类别;
    (2)如何更好地解决实体冗余问题;
    (3)如何更好地解决多重关系问题。

  • 关系域映射到实体域模型:先从文本语句中预测关系,然后基于关系去抽取头部实体和尾部实体。
    • 2018年Zeng等提出一种CopyRE的联合模型,该模型采用Seq2Seq框架,依次抽取关系、头实体、尾实体。(只考虑一个token组成的实体,对实体边界的预测尚有欠缺;头尾实体的区分不大,会影响实体间关系的预测性能。)
    • 2020年Zeng等又提出一种Copy MTL的模型,它是对Copy RE模型的改进。(可以预测多个token组成的实体。只是简单地利用分类结果作为识别实体的指导,忽略了更细粒度的语义关系和语句中单词的联系。)
    • 2021年Yuan等考虑细粒度下单词对文本语义关系的影响,提出了一种RSAN的联合模型。
    • 随后,Zheng等在前人研究基础上提出一种PRGC模型,极大缓解了冗余关系判断、基于广度的提取泛化能力差等问题。
    • Ma等采用基于双译码器模型首先检测文本语义关系,针对关系重叠问题进一步解决,并在公开数据集上取得了更优的性能。

    不足:
    (1)由于模块分离和步骤分开,虽然使用共享参数的方法将其整合,但依然存在模块间和步骤间级联冗余的问题。
    (2)如果单句中包含多个关系三元组时,这类模型性能较低。

  • 头实体域映射到关系、尾实体域模型:先抽取出头部实体,然后推断出对应的关系和尾部实体。
    • 2020年,Wei等创新性地提出了一种HBT(Hierarchical Binary Tagging)模型实现实体关系联合抽取。

    该模型共包括4层:
    词向量生成层(BERT encoder layer) 对输入的词向量进行编码并抽取语义特征,头实体识别层(subject layer) 抽取头实体;
    关系抽取层 (relation layer) 对关系域进行遍历,结合尾实体识别层 (object layer)抽取关系和尾实体。

    • Yu等提出了一种能够充分捕捉到不同步骤之间语义依赖性的模型,进一步提高了实体识别和关系抽取的交互性。
    • Zhao等提出了一种异构图神经网络的联合模型,提高了联合模型性能。
    • Ye等使用批量动态注意掩蔽实现不同模块间的联合优化,并采用三重校正保证了三元组推断的可靠性,推进联合模型性能走向新高。
    • Lin等延伸了基于DYGI++的跨度表示工作,其整合了全局文本信息,提高了实体识别和关系抽取的交互性。
  • 多模块-多步骤建模方法存在的问题:
    • (1)解码误差累积问题,即每个步骤使用独立的解码算法,导致解码误差累积。
    • (2)级联冗余问题,即经共享参数整合的各个模块的冗余误差会互相影响预测性能。

多模块-单步骤

  • 多模块-单步骤可以分为两种:
  • 表格填充模型
    • 2017年,Zhang等为实现实体关系抽取的联合解码,提出了一种早期表格填充模型。该模型无法捕捉实体识别和关系抽取的特定信息,在公开数据集上的性能较差,但这种表格填充的联合解码算法为后续研究者的深入研究奠定了基础。
    • 2019年Sun等提出了一种基于图神经网络的表格填充模型实现实体关系联合抽取任务,该模型能够有效捕捉两个子任务的特定信息,但在公开数据集上的效果不好。
    • Wang等针对早期表格填充模型的问题,提出了一种基于两个独立编码器的表格填充模型。该模型包含序列编码器与表格编码器,序列编码器可以提取实体识别任务的特定信息,而表格编码器可以提取关系抽取的特定信息。(实体识别和关系抽取两个子任务的特征表示存在冲突,会对模型预测结果带来不利影响)
    • Wans等提出了一种TPLinker(令牌对链接:Token Pair Linking,TPL)模型消除了两个子任务特征表示的冲突,进一步提升了联合模型在公开数据集上的性能。(TPLinker模型在处理多重关系时具有一定优势,在多个公开数据集上均取得了超越前人模型的效果。但该模型设计了较为复杂的联合解码算法,在抽取三元组时效率不高。)
    • 2021年Wang等提出了一种Uni RE表格填充模型,包括双仿射模块(抽取文本中长范围语义特征,采用深度双仿射注意力机制编码表中单词的方向信息)、概率张量模块(填充实体的标签表格)、解码模块(分三步抽取三元组——先解码实体或实体间跨度,接着解码每个实体跨度的类型,最后解码实体对应的关系类型。)
  • 集合预测模型
    • 2017年Zheng等将实体识别和关系抽取统一为一个序列标注任务,提出了一种基于统一标注策略的实体关系联合抽取模型NovelTagging。(无法抽取实体间的多重关系;没有充分利用文本全局信息)
    • 2019年Dai等人针对Novel-Tagging模型存在的问题,提出了一种基于注意力机制的统一标注策略联合抽取模型,在公开数据集上取得了更优异的性能。
    • 2020年Sui等提出了一种集合预测(Set Prediction Networks, SPN)模型,包括三个模块:语句编码模块(采用BERT模型生成词向量作为输入)、非自回归解码模块(采用N层transformer块,对输入的词向量和来自于语句编码模块的词向量依次进行解码)、将NAT生成的解码向量送入FFN后经过softmax抽取三元组。

单模块-单步骤

  • 2022年,Shang等提出了One Rel模型,构建了一种基于细粒度的三重分类模型,直接从文本语句中抽取三元组。

数据集

  • ACE关系抽取数据集:关系抽取任务在2002—2007年被当作ACE会议的一个子任务,ACE会议提供的ACE04/ACE05数据集被认为是实体关系抽取领域的权威公开标准评测数据集。
  • Co NLL04数据集:该数据集共有1 437个含有关系的语句样本,语句中的实体和关系类型都进行了标注。
  • ADE数据集:存在两种实体类型:Drug和Disease。该数据集的目的是抽取Drug类型实体和Disease类型实体,同时抽取二者的关系。
  • NYT数据集:这是在远程监督实体关系抽取领域常用的数据集,也会被用在实体关系联合抽取领域做模型性能评估。
  • Web NLG数据集:Web NLG语料库由一组描述事实的实体关系三元组和以自然语言文本形式对应的事实组成。
  • Du IE数据集:Du IE数据集来自百度2020语言与智能技术竞赛,是当前规模相对比较大的中文信息抽取数据集。

评测指标

  • 实体关系联合抽取领域采用3项基本评价指标:准确率(Precision,P)、召回率(Recall,R)和F1值(F1 Measure)。

联合模型研究展望

  • 开放域实体关系联合抽取
  • 融入多元信息的实体关系联合抽取
  • 跨文本的实体关系联合抽取

本文作者:Barn

本文链接:https://www.cnblogs.com/zinger/p/18195536

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   Barn  阅读(649)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起