张梓寒

导航

事件抽取论文综述-A Survey on Deep Learning Event Extraction: Approaches and Applications

A Survey on Deep Learning Event Extraction: Approaches and Applications

1)发表信息:

https://arxiv.org/abs/2107.02126
Qian Li, Jianxin Li, Member, IEEE, Jiawei Sheng, Shiyao Cui, Jia Wu, Senior Member, IEEE, Yiming Hei, Hao Peng, Shu Guo, Lihong Wang, Amin Beheshti, and Philip S. Yu, Fellow, IEEE
一个来自北航的团队,发表在21年7月的一个IEEE期刊上
一篇关于事件抽取的综述,总结了封闭域事件抽取领域的几种主流思想,和一些主要的研究方向。

2)主要内容

事件抽取任务思维导图:事件抽取

    • 子任务
      • 开放域:在没有预定义的事件模式的情况下,从文本中检测事件
        • 事件检测
          • 故事分割:从新闻中检测故事的边界
          • 第一个故事检测:检测新闻流中讨论新话题的故事
        • 事件集群
          • 话题检测:根据讨论的主题将故事分组
          • 话题追踪:检测讨论先前已知话题的故事
          • 故事链检测:决定两个故事是否讨论同一个主题
      • 封闭域:使用预定义的事件模式从文本中发现和提取所需的特定类型的事件(预先对组成事件的元素进行划分,我们的任务是识别这些元素,并且对这些元素分类)
        • 事件触发词:最清楚地表达事件发生的主要词,一般指动词或名词。
          • 触发词识别
          • 触发词分类
        • 事件论元:一个实体或者时间表达式,作为参与者的值和在事件中具有特定角色的属性。
          • 论元识别
          • 论元角色分类
        • 事件提及:描述事件的短语或句子,包含事件触发词和事件论元
    • 真实场景下的难点与挑战
      • 文档级事件提取
        • 论点分散:一个事件的论点可能分散在文档中的多个句子中,这意味着不能从单个句子中提取一个事件记录
        • 多事件:一个文档可能同时包含多个事件,这需要对事件之间的相互依赖性进行整体建模。
      • 低资源场景下的事件抽取
        • Few-shot
        • Zero-shot
        • 终身学习:一个实用的ED(event detection)系统应该逐步学习新的事件类型,同时保持对现有类型的预测,而不是需要一个固定的数据集来重新训练所有事件类型
      • 多语言时间抽取
      • 中文事件抽取
    • 下游任务
      • 事件真实性识别(Event factuality identification (EFI) ):确定事件是否真实发生在现实世界中的确定程度,这可以看作事件知识图构建中EE的下游任务
        • 特定积极(肯定发生,CT+)
        • 特定消极(肯定未发生,CT-)
        • 可能积极(可能发生,PS+)
        • 可能消极(可能未发生,PS-)
        • 未指定(无法识别事件的真实性,Uu)
      • 关系抽取(Event Relation Extraction(ERE)):分为三种,这三种关系类型通常是单独研究的,并且迄今为止没有一致的任务公式
        • 共指关系
        • 因果关系
        • 时序关系
      • 脚本事件预测(Script Event Prediction(SEP)):脚本是描述主角活动的有序事件链,脚本事件预测(SEP)旨在从候选事件列表中预测给定链的后续事件

封闭域事件抽取示意图:

论元抽取的模型种类:

触发词-论元联合抽取的模型种类(横向分类方法):

Pipeline-based Paradigm:
Joint-based Paradigm:

触发词-论元联合抽取的模型种类(纵向分类方法):

1.CNN-based Models
2.RNN-based Models
3.Attention-based Models
4.GCN-based Models
5.Transformer-based Models

事件抽取数据集:

未来的研究方向:

1)事件抽取数据集的构造:事件抽取任务很复杂,现有的预训练模型缺乏对事件抽取任务的学习。现有的事件抽取数据集具有少量标记数据,并且手动注释事件抽取数据集合具有较高的时间成本。因此,构建大规模事件抽取数据集或设计自动构建事件提取数据集合也是未来的研究趋势。
2)外部资源:事件抽取的数据集很小。结合外部资源和构建大规模数据集的深度学习取得了良好的效果。由于构建标记数据集的困难和数据集的规模较小,如何更好地利用深度学习来借助外部资源有效地抽取事件也是一个迫切的研究方向。
3)事件抽取架构:事件抽取方法可分为封闭域事件提取方法和开放域事件提取法。没有模式的事件抽取方法的效果对评估具有挑战性,基于模式的事件提取需要根据不同的事件类型设计不同的事件模式。因此,如何设计一个基于事件特征的通用事件抽取模式是克服构建事件提取数据集和类间知识共享困难的重要手段。
4)依赖学习:如何建立事件参数之间的依赖关系。
5)文档级别的多事件抽取。
6)特定域事件提取:域文本通常包含许多技术术语,这增加了域事件提取的难度。例如,生物医学旨在提取捕获生物医学实体之间相互作用的事件。提取和利用它们有利于医学研究和疾病预防。因此,如何设计有效的方法来理解领域文本中的深层语义信息和上下文对应关系已成为一个亟待解决的问题。
7)事件抽取的可解释性。
 

posted on 2023-05-29 14:52  张梓寒  阅读(259)  评论(0编辑  收藏  举报