论文阅读:ExCAR: Event Graph Knowledge Enhanced Explainable Causal Reasoning

ExCAR: 事件图知识增强的可解释因果推理

Abstract

Prior work infers the causation between events mainly based on the knowledge induced from the annotated causal event pairs. However, additional evidence information intermediate to the cause and effect remains unexploited. By incorporating such information, the logical law behind the causality can be unveiled, and the interpretability and stability of the causal reasoning system can be improved. To facilitate this, we present an Event graph knowledge enhanced explainable CAusal Reasoning framework (ExCAR). ExCAR first acquires additional evidence information from a large-scale causal event graph as logical rules for causal reasoning. To learn the conditional probabilistic of logical rules, we propose the Conditional Markov Neural Logic Network (CMNLN) that combines the representation learning and structure learning of logical rules in an end-to-end differentiable manner. Experimental results demonstrate that ExCAR outperforms previous state-of-the-art methods. Adversarial evaluation shows the improved stability of ExCAR over baseline systems. Human evaluation shows that ExCAR can achieve a promising explainable performance.

  前人的研究工作主要是基于从标注的因果事件中对归纳出的知识来推断事件之间的因果关系。然而,对因果关系其中介作用的其他证据信息仍未被利用。通过整合这些信息,可以揭示因果关系背后的逻辑规律,提高因果推理系统的可解释性和稳定性。为此,论文提出了一个事件图知识增强的可解释因果关系推理的框架 ExCAR ,ExCAR 从大规模因果事件图中获得额外的证据信息,作为因果推理的逻辑规则。论文提出条件马尔科夫神经逻辑网络(CMNLN),来学习逻辑规则的条件概率,实验结果表明性能有所进步。

 

Introduction

  因果推理旨在理解因果之间的一般因果依赖关系。以往的研究工作主要是从手工标注的因果事件对中学习因果知识,尽管取得了较好的表现,但这些工作没有了解潜在的因果机制,因此他们的推理模型不够稳定,结果无法解释。

Figure 1

  • 在(a)中,如果没有证据 i1 流动性过剩, i2 投资需求上涨,很难揭示 a 量化宽松政策与 b 房价上涨之间隐含的因果关系;

量化宽松(Quantitative Easing,简称QE)是指中央银行在实施零利率或者接近零利率政策后,通过购买国债等中长期债券,增加基础货币供给,向市场注入大量流动性资金的干预方式,以鼓励贷款和投资,因此量化宽松也被认为是“央行间接印钱”。

  • 在(b)中,如果没有中间事件 i 流动性过剩,那么无法从已知的因果关系<a, b>和<c, d>来推断出<a, d>和<c, b>。相反则能从逻辑链<a ⇒ i ⇒ b>和<c ⇒ i ⇒ d>自然地观察到 <a ⇒ i ⇒ d> 和 <c ⇒ i ⇒ b>
  • 在(c)中,论文提出的 ExCAR 框架,对于输入的事件对 <C, E>, 首先从CEG(论文作者自己构建的一个因果知识库)中检索到外部证据事件 i1 和 i2 并定义 C,i1 ,i2 ,E 之间的因果关系作为一组逻辑规则,这些规则对因果推理任务是有用的表示,因为它们是可解释的且推断结果是可见的。
  • 在(d)中,Pearl(2001) 指出因果关系的内在逻辑是一种逻辑概率,但这种概率(即因果对的因果强度CS-causal strength)是不确定的,其概率会随着前因变量的不同而不同。例如 (d) 中感冒引起的发烧一般不会导致生命危险,而如果是由败血症引起的发烧,它导致生命危险的概率很高

  为了解决概率问题,论文提出了条件马尔科夫神经逻辑网络 CMNLN 。

 

Background & Method

 

1.Task Formalization

  论文将 COPA( Choice of Plausible Alternatives)和 C-COPA 因果推理任务都定为多选择任务。

Example:
Premise : The company lost money.
Ask-for : Cause.
Hypothesis 1 : Its products received favorable comments.
Hypothesis 2 : Some of its products were defective.

  如示例,将因果推理任务形式化为了一个预测问题:给定一个前提事件和一个假设事件组成的因果事件对<C, E>,用预测模型来预测衡量事件对因果关系的得分。

2.Causal Event Graph

  CEG 是作者构建的大规模因果知识库,可以从中检索到特定因果事件对 <C, E>的额外证据。CEG 是一个有向无环图,顶点代表事件,边代表因果关系。

  为了从 CEG 中获取证据,首先要在 CEG 中找到因果关系。直觉上,语义上相似的事件会有相似的原因和结果,在 CEG 中会在相似的位置。论文使用预训练语言模型ELMo来推断 CEG 中事件的语义表征,以及因果事件。然后利用语义表示的余弦相似度,在 CEG 中找到与输入因果事件语义相似的事件。这些事件可以作为定位因果事件的锚点,以图2所示,以原因事件的锚点为起点,以结果事件的锚点为终点,采用 BFS 检索证据事件。检索完成之后,cause,effect and evidence events 构成了一个因果逻辑图 CLG。

3.Rule-based Reasoning Using Markov Logic Network

  为了提高因果推理的可解释性和稳定性,论文将因果推理问题转换为了基于规则的推理任务。具体来说,输入一个因果事件对<C, E>,然后加上从 CEG 中检索出一组证据事件,它们进一步形成一组因果逻辑规则,这个规则描述了两个事件间的因果关系。通过这些因果逻辑规则,可以揭示因果机制,并以可解释的方式进行因果推理。

  因果逻辑潜在的逻辑是一种概率逻辑。马尔科夫逻辑网络 MLN 可以通过给每个因果规则分配一个因果强度来模拟这种不确定性,因果强度 CS 可以作为衡量因果逻辑规则成立的概率。

  设 P ( ri ) 为规则 ri 的因果强度 ,φ( ri ) 为势函数,Y 为因果关系得分,Z是一个标准化常数,则有联合分布:

  但直接使用 MLN 不能模拟规则的前因影响。因此论文提出了一种基于逻辑规则嵌入空间的条件马尔科夫神经逻辑网络,用于建模规则的条件因果强度。

  将先行词记为 ANTEi ,则受某一先行词的影响,这个规则的因果强度为 P ( ri | ANTEi )。如图2所示,从 CLG 得到的一条规则可能有多个先行词,而这些先行词都可以对规则的因果强度产生影响。

  CMNLN 将 CLG 视为由不同的因果逻辑链 {ρ1,···,ρm}组成,并结合各因果逻辑链的信息预测因果得分。从而在每个因果逻辑链中,使用先验感知的势函数,对每个规则 rjk ∈ ρj 的因果强度进行评估,然后将链内因果信息和链间因果信息进行聚合,得到因果得分。

3.1 Logic Chain Generation

  描述了逻辑链 ρj 的一系列从原因事件 C 开始到结果事件 E 为止的传递因果逻辑规则, 规则由一系列事件构成,其中 为原因事件C,为结果事件 E,利用深度优先搜索 DFS 枚举出 CLG 中所有的因果逻辑链。

3.2 Event Encoding

  采用基于 BERT 的编码器,将每个逻辑链中的所有事件都分布式嵌入编码。将事件序列处理这种形式,然后将事件序列交给 BERT。在每个事件之前定义 [CLS] token 的最终隐藏状态作为相应事件的表示。这样就获得了事件嵌入集

3.3 Chain-specific Conditional Causal Strength Estimation

  用来表示规则的先行词,然后用先验势函数来计算特定链的因果强度。

  表示 模拟先行词的影响,使用 MLP 来提取

  代表连接操作, W 是相应的权重矩阵,用来模拟先行词的影响。

  然后计算规则条件因果强度

  整个过程是递归的:

3.4 Intra-Chain Information Aggregation

  链的因果强度并进行归一化:

3.5 Aggregating Chain-level Information for Predicting Causality Score

  通过链级因果信息来获得因果得分 Y,直觉上,一个因果逻辑链的因果强度 CS 越强,对 Y 的影响就越大。因此,利用线性组合来聚集链级信息:

  u 就是提取的最终状态信息,Y 由此得到:

3.6 Training

  在训练过程中,为了提高条件因果强度估计的可靠性,还引入了因果逻辑驱动的负采样。

  因为因果关系是单向的,根据 CLG 中存在的规则 ,可以推导出相应的假规则,再生成相应错误的先行词。因此在理想情况下,这些错误规则的 CS = 0。更进一步通过级联关系可推出。通过对错误规则进行采样,训练错误规则的势函数为0。

  对于这个负采样过程,CMNLN 的损失函数为:

 

Experiments

  为了评估 ExCAR 框架的稳健性,还建立了一个额外的中文常识因果推理数据集 C-COPA 。这个数据集建立在大规模人工注释网络新闻语料库 SogouCS上。

  CEG 图是从CausalBank Corpus中获取3.14亿英文的因果事件对,而中文因果事件对则是从2018-2019年从多个网站抓取收集整理的。二者各取150万对

 

Related Work & Conclusion

  可解释性是文本推理系统长期追求的目标,因为它可以帮助揭示黑箱模型的决策机制,并增强推理的稳定性,特别是在金融和医疗领域。前人的研究方向主要分为两大类:生成可解释信息和设计自解释机制。

  除了与任务相关的信息外,自动生成的文本解释有助于证明模型的可靠性。例如 Nie et al(2019,ACL)训练多任务模型,学习文本蕴含推理生成解释。另一方面,与纯数据驱动方面相比,引入相关的外部知识不仅可以提高模型性能,而且有助于理解模型的行为(Wang et al.,2019b)。

  另一项工作是设计自解释模型,以揭示模型的推理过程。注意力机制被设计来明确地衡量输入文本特征的相对重要性。因此被广泛用于增强深度神经模型的可解释性。 在本文中,为了以一种可解释的方式进行因果推理,论文提出从预先建立的因果事件图中归纳出一组逻辑规则,并显式地建立每个逻辑规则的条件因果强度模型,概率逻辑规则可以为解释预测结果提供线索。

 

Reference & Recommend

Yixin Nie, e.t. 2019. Adversarial nli: A new benchmark for natural language understanding . arXiv preprint arXiv:1910.14599.

Xiang Wang e.t. 2019b. Explainable reasoning over knowledge graphs for recommendation. InProceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 5329–5336.

 

posted @ 2021-11-03 15:59  莫莫君不恋爱  阅读(937)  评论(0编辑  收藏  举报