【论文笔记】Graph Convolutional Networks with Argument-Aware Pooling for Event Detection

摘要

目前用于事件检测的神经网络模型只考虑句子的序列表示。尽管句法表征提供了一种有效的机制,可以将单词直接链接到其信息上下文中,以便在句子中检测事件,但在这一领域还没有得到研究。
本文研究了一种基于依赖树的卷积神经网络进行事件检测。提出了一种新的基于实体提及的卷积向量聚合方法。大量的实验证明了基于依赖的卷积神经网络和基于实体提及的事件检测池方法的优点。我们在广泛使用的数据集上实现了最先进的性能,包括完美和预测的实体提及。

模型

事件检测可以被视为一个多类分类问题。文档中的每个单词都与包含该单词(上下文)的句子相关联,以在多类分类术语中形成事件触发器候选词或示例。我们的任务是预测文档中每个事件触发器候选项的事件标签。标签可以是数据集中预定义的事件类型(子类型)之一,也可以是“无”以指示非触发器候选。因此,我们有一个等价的ED(L+1)类分类问题,其中L是预定义事件类型的数目。

\(w=w_1,w_2,…,w_n\)是某个事件触发候选的长度n的句子,其中\(w_a(1≤a≤n)\)是用于触发预测的当前单词(\(w_i\)是句子\(∀1≤i≤n\)中的第\(i\)个标记)。此外,当我们假设\(w\)中实体提及(即位置和类型)的可用性时,我们可以利用BIO注释方案使用实体提及的非重叠头(最重要的令牌)将实体类型标签\(e_i\)分配给\(w\)的每个令牌\(w_i\)。这导致实体类型标签\(e_1、e_2、…、e_n\)代表w的顺序,如图1所示。注意,在这种方案中,\(e_i\neq O\)意味着\(w_i\)\(w\)中提到的实体的范围内。

本文中的ED图卷积网络由三个模块组成:(i)用GCN计算矩阵表示输入句子的编码模块,(ii)对句子中的每个标记在w的依赖图结构上执行卷积操作的卷积模块,以及(iii)池模块基于句子中提到的实体的位置聚合卷积向量以执行ED。

编码

在编码模块中,通过连接以下向量,将输入语句中的每个标记\(w_i\)转换为实值向量\(x_i\)

  • \(w_i\)的单词嵌入向量:这是一个实值向量,捕捉\(w_i\)隐藏的语法和语义属性。单词嵌入通常是在一些大型的未标记语料库上预先训练的。
  • \(w_i\)的位置嵌入向量:为了表示\(w_a\)是当前单词,我们将\(w_i\)\(w_a\)(即i-a)的相对距离编码为实值向量(称为位置嵌入向量),并将该向量用作\(w_i\)的附加表示。我们通过查找将相对位置(即\(i-a\))的可能值映射到随机初始化向量的位置嵌入表来获得位置嵌入向量。
  • \(w_i\)的实体类型嵌入向量:与位置嵌入类似,我们维护一个实体类型嵌入表,该表将令牌的实体类型标签(即实体提及的生物标签)映射到实值随机向量。我们在这个表中查找\(w_i\)的实体类型标签\(e_i\)以检索相应的嵌入。

由于每个令牌\(W_i\)由向量\(x_i\)表示为\(d_0\)的维数,所以输入句子\(w\)可以被视为向量\(X= x_1,x_2、…、x_n\)的序列。下一步将使用\(X\)作为图形卷积模块的输入。

图卷积

\(G=\{V,E\}\)\(w\)的依赖解析树,\(V\)\(E\)分别作为\(G\)的节点集和边集。\(V\)包含与\(w\)中的\(n\)个标记\(w_1,w_2,…,w_n\)相对应的\(n\)个节点。为了方便起见,我们还使用\(w_i\)表示\(V\)中的第\(i\)个节点:\(V={w_1,w_2,…,w_n}\)\(E\)中的每个边缘\((w_i,w_j)\)从头字\(w_i\)定向到从属字\(w_j\),并且具有从属标签\(L(w_i,w_j)\)。例如,在图1的依赖树中,有一条从第二个单词\(w_i=“fired”\)(头单词)的节点到单词\(w_j=“officer”\)(从属单词)的节点的定向边缘,边缘标签\(L(w_i,w_j)=L(“fired”,“officer”)=nsubjpass\)

为了允许\(G\)中的每个令牌\(w_i\)的卷积将单词\(w_i\)本身及其调控词(如果有的话)包含在依赖图中,我们将自环\((w_i,w_i)\)和逆边\((w_j,w_i):(w_i,w_j)∈E\)添加到初始边集E中,从而产生新的边集\(E' = E∪{(w_i, w_i):1 ≤ i ≤ n}∪{(w_j , w_i):(w_i, w_j ) ∈ E}\)

实验

一.数据集和设置

我们使用广泛使用的ED数据集,即ACE 2005数据集和TAC KBP 2015数据集对网络进行评估。我们在设置中使用了ACE 2005数据集,并使用黄金(完美)注释作为实体引用,正如前面的工作一样。另一方面,利用TAC-KBP 2015来测试网络是否具有预测的实体提及(即,句子中实体提及的注释由某个自动实体提及检测器提供)。虽然预测的实体引用可能包含一些错误,但这是一个更现实的设置,因为我们在实践中通常没有针对数据集的黄金实体引用。ACE 2005数据集注释了33个事件子类型,这些子类型与NONE类一起充当此数据集34个类分类问题的预定义标签集。为了确保与之前在这个数据集上所做的工作相兼容,我们使用相同的数据,对测试集40篇newswire文章、对开发集30篇其他文档和对培训集529篇剩余文档进行拆分。TAC KBP 2015数据集是2015年文本分析会议(TAC)事件掘金检测评估的官方评估数据。它有38个事件子类型,因此需要39个类的分类问题,ED的类为“无”。我们使用2015年事件掘金检测提供的官方数据分割,包括360个用于培训数据集的文档和202个用于测试数据集的文档。

二. 参数、资源和设置

参数在ACE2005数据集的开发日期进行调整,选择的参数值包括最小批量大小=50,L2范数的预定义阈值=3,辍学率=0.5,位置嵌入和类型嵌入的实体维数=50,卷积的隐藏单元数层d=300。我们使用预先训练的300维单词嵌入来初始化单词嵌入。本文将这些参数和资源用于这两个数据集。
为了分析数据集中的句子,我们使用了具有通用依赖关系的斯坦福语法分析器。在前面的工作之后,我们在实验5中使用了固定长度的n=31个句子。这意味着我们需要用一个特殊的字符来填充较短的句子,或者修剪较长的句子以适应n的固定长度。虽然短句子的依赖树中的句法边缘可以保留,但是对于blonger句子,我们删除了链接到至少一个修剪单词的句法边缘。

三.评估网络架构

本节评估不同的模型架构,以演示GCN和BiLSTM对于GCN的有效性。特别地,我们将所提出的模型与其相应的版本进行比较,其中不包括GCNs层或BiLSTM层。对于带有GCN层的版本,weincrementallyin增加基于图形的卷积层(即K)的数量,直到性能下降。表1报告了ACE 2005数据集开发部分的模型(精度(P)、召回率(R)和F度量(F1))的性能。请注意,本节中的实验使用了建议的池机制(即,基于实体提及的池实体)。
这张桌子有三个街区。第一个块对应于完整的建议模型(即BiLSTM+GCNs);第二个块相当于不包括BiLSTM层的建议模型(即GCNs(无BiLSTM));第三个块显示当不包括GCN层时建议模型的性能(即仅使用BiLSTM层)。重要的是,我们在实验6中优化了BiLSTM层的数量(在ACE 2005开发数据集上进行了调整),以更准确地测量在BiLSTM存在下gcn对ED的实际贡献。
该表表明,当GCN层的数目为2时,所提出的模型和没有BiLSTM的所提出的模型(分别是块1和块2)均获得最佳性能。前者的最佳性能(即F1得分为71.8%的完整建议模型“BiLSTM+GCNs(K=2)”)优于后者的最佳性能(即F1得分为71.2%的完整建议排除BiLSTM“GCNs(无BiLSTM)(K=2)”。因此,BiLSTM捕获了ED的一些有用的依赖项,这些依赖项没有在GCNs中编码。因此,BiLSTM是GCNs对ED的补充,利用BiLSTM和GCNs可以进一步提高GCNs的性能。然而,由于BiLSTM只增加了GCNs性能的0.6%(即从71.2%增加到71.8%),因此ED所需的大部分信息都是由GCNs自己捕获的。更重要的是,将所提出的模型(即表中方框1中的BiLSTM+GCNs(K=2))与方框3中的BiLSTM模型进行比较,我们发现GCNs显著提高了BiLSTM的性能(即从70.5%提高到71.8%),从而证明了GCNs对ED的有效性。
在下面的实验中,我们将始终使用本节中发现的建议模型的最佳网络架构,即BiLSTM+GCNs(K=2)。

四.评估池机制

为了展示基于实体提及的GCN池方法(实体)的好处,我们将其与文献中其他ED池方法(即ANCHOR(Nguyen,Cho,and Grishman 2016a;Marcheggiani and Titov 2017)、总体(Nguyen and Grishman 2015;2016b)、动态(Chen et al。2015年;2017年)。具体来说,我们重复上一节表1中的模型选择过程,为{ANCHOR,OVERALL,DYNAMIC}(使用ACE 2005开发数据集)中的每个比较池方法选择最佳的网络体系结构。对于每个池方法,选择包括同时具有BiLSTM和GCNs的模型(BiLSTM+GCNs)、仅具有GCNs的模型(GCNs(no BiLSTM))和仅具有BiLSTM的模型(BiLSTM)。我们还优化了每个模型的GCN层和BiLSTM层的数量,如前一节所述。此过程确保每个池方法都有其最佳的网络体系结构,以便于公平比较。表2显示了每个池方法的最佳网络体系结构及其在ACE 2005测试集上的相应性能。
从表中我们可以看到,实体和锚的最佳架构都有BiLSTM层,而整体和动态架构则不是这样,它们的最佳架构只包括GCN层。我们将这种现象归因于这样一个事实,即整体和动态聚合了句子中每个单词的卷积向量,潜在地封装了ED句子中单词的有用的长程依赖关系。这使得BiLSTM是多余的,因为BiLSTM在这种情况下也试图捕获这样的长程依赖关系。这与实体和锚定相反,它们只在句子中的某些特定位置(即实体提及和当前单词)聚集卷积向量,并且缺乏对单词的长期依赖性建模的能力。这就需要BiLSTM合并实体和锚的远程依赖项。最后,我们发现实体显著优于所有其他池方法(p<0.05),具有较大的利润率(即,就F1得分而言,比第二好的锚定方法好1.7%),证明了实体提及池(实体)对于带有GCN模型的ED的有效性。

5.与最先进的技术相比

本节将提议的模型(即BiLSTM+GCNs(K=2)和实体池(称为GCN-ED)与表3中ACE 2005数据集上的最新ED系统进行比较。这些系统包括:
1)感知器:用于联合波束搜索的结构化感知器模型,在
2)跨实体:跨实体模型
3)PSL:捕捉事件-事件关联的概率软逻辑模型
4)框架网:利用标注语料库的模型
框架网的改进
5)CNN:CNN模式
6)DM-CNN:动态多池CNN模型
7)DM-CNN+:动态多池CNN模型加上自动标记数据
8)B-RNN:双向递归神经网络模型
9)NCNN:非连续CNN模型
10)ATT:基于注意力的模型
11)ATT+:在Framenet中添加注释数据的基于注意力的模型
12)CNN-RNN:CNN与LSTM的集成模型
从表中我们可以看出,GCN-ED是一个单一的模型,但它的性能仍然与CNN-RNN中的集成模型相当(Feng等人。并显著优于所有其他比较模型。特别是,GCN-ED比ATT+好1.2%,尽管GCN-ED没有像ATT+那样使用来自Framenet的注释数据。此外,尽管GCN-ED只使用句子级信息,但它仍然比使用文档级信息(即跨实体和PSL)的方法有很大的优势(F1分数提高了约4.8%)。最后,在基于单卷积的模型(即CNN、DM-CNN、NCNN和GCN-ED)中,GCN-ED优于其他模型(相对于最好的卷积模型NCNN,F1得分提高了1.9%)。这与p<0.05显著相关,说明了所提出的ED模型的优点。

6.调查预测实体提及的效果

前面的章节已经证明了所提出的模型的有效性,其中池机制实体扮演着重要的角色。实体的操作需要从以前的实验中的手工标注(完美实体标注)中获得的实体标注。当自动系统预测到所提出的模型,特别是池方法实体时,是否仍能很好地执行,还有待于测试。TAC KBP 2015用于本节的实验。首先利用RPI联合信息提取系统对该数据集进行实体提及标记,然后将预测的实体提及作为模型的输入。为了确保一致性,我们在培训部分使用表2中每个池机制的最佳网络架构来培训模型,并在TAC KBP 2015数据集的测试部分报告性能。
我们还使用与ACE 2005数据集(在表2中)的实验相同的超参数和资源来实现兼容性。表4显示了结果。
我们还将最佳系统的性能纳入2015年文本分析会议的事件掘金检测评估,以供参考(Mitamura、Liu和Hovy 2015)。
从表中最重要的观察是,实体仍然明显优于其他汇集方法(p<0.05),证实实体提及在ED中指定gcn汇集位置的有效性,即使实体提及是预测的。此外,拟议的GCN-ED模型(对应于表中的实体行)在2015年TAC评估中优于最佳报告系统,进一步证明了GCN-ED在ED中的优势。

posted @ 2019-11-22 11:20  "kisetsu  阅读(891)  评论(0编辑  收藏  举报