Semi-supervised New Event Type Induction and Event Detection

Motivation

本文提出了一个基于VQ-VAE的半监督事件检测方法。

句子表示为\(s = [w_1, \dots, w_n]\)，用所有subtoken的表示的平均值作为trigger word \(w_i\)的表示。

每个事件类型的隐藏空间表示向量\(E \in \mathbb{R}^{k \times d}\)，\(e_i\)为第\(i\)个事件的表示向量，\(k\)为事件类型数量。

假设有\(m\)个已知的事件（seen type，因为本文的设定包含挖掘未看到的事件类型，因此涉及到seen type和unseen type，分别表示在训练集中标注了的事件类型和没标注的类型）。

已知候选触发词\(t\)和上下文表示\(v_t\)，用一个编码器\(f_c(v_t) \in \mathbb{R}^{d}\)计算对应的事件类型表示，然后通过离散的潜在事件表示计算事件类型分布

\[y_t = \text{Softmax}(E^{[1:k]} \cdot f_c(v_t)) \]

训练损失表示为

\[\mathcal{L}_c = \sum_{(t,\tilde{y}_t) \in D_s} - \tilde{y}_t \log (y_t) + \sum_{t \in D_u} \max (y_t^{[1:m]}) - \max ( y_t^{[m:k]}) \]

上式第一部分为seen type的交叉熵损失，第二项为让unseen type中距离t最近的那个事件比seen type中最近的事件距离t的表示更近。

另外一部分损失，更新code block和防止预测的隐藏向量在离散事件类型表示中来回跳跃

\[\mathcal{L}_{vq} = ||\text{sg}(f_c(v_t)) - e_i||^2 + ||f_c(v_t) - \text{sg}(e_i)||^2 \]

为了让事件类型预测不过拟合于seen type，使用VQ-VAE，其直觉是，每个事件提及都可以在潜在的变分嵌入\(z\)及其对应的类型分布\(y\)的条件下生成

SS-VQ-VAE的推理包含两个阶段，\(q(z|t)\)（由事件提及预测隐层向量）和\(p(t|y,z)\)（由事件类型分布和隐藏表示生成事件提及）。

对于seen type

\[\log p(t, y) \ge \log p(t|y, z) − \text{KL}(q(z|t)||p(z)) = −\mathcal{L}(t, y) \]

对于unseen type

\[\log p(t) \ge \sum_y q(y|t)(−\mathcal{L}(t, y)) − q(y|t) \log q(y|t) = −\mathcal{L}(t) \]

posted @ 2022-09-27 22:34 TABball 阅读(95) 评论(0) 编辑收藏举报

刷新页面返回顶部