【因果推断】中介因果效应分解 汇总与理解

中介因果效应分解 汇总与理解

1. 前言

在学习因果推断相关文章时[4,5],对总体因果效应如何分解为直接效应和间接效应产生了一些困惑,查阅相关资料[1,2,3]后,将因果效应分解的相关概念汇总形成此文,希望帮助有需要的同学理清概念,加深理解。

关于因果推断更基础的知识请参考相关书籍[6,7]。

2. 问题描述

中介效应,是指在因果模型中,Treatment X 对Outcome Y的因果效应可能有一部分是通过中介变量M(Mediation)传递过去的。例如:

Figure 1

在这种因果模型中,我们感兴趣的问题是,X对Y的因果效应中,有多大比例是通过M传递过去的?

  • 中介效应分析对于政策制定[1]、理解数据[8]都有重要作用。
  • 例如
    • 药物(X)对病情(Y)的影响有多少是通过阿司匹林剂量(M)造成的?药物(X)通过直接路径有多大效果?如果副作用被消除,药物的效果会受到多大影响?[1]
    • 不同国家(X)之间新冠死亡率的差异(Y)有多少是由于患者年龄分布(M)造成的?[8]

3. 符号定义

\(X=x,M=m\)时,Y的取值记为\(Y_{xm}\)

\(X=x\)时,M的取值记为\(M_x\)

简单起见,假设X是二元变量,例如:

  • \(X=1,M\)\(X=1\)时M的值时,Y的取值记为\(Y_{1M_1}\)
  • \(X=1,M\)\(X=0\)时M的值时,Y的取值记为\(Y_{1M_0}\)

在很多论文中,也将X=1记为X=x,将X=0记为\(X=x^\star\),对应的,\(M_1\)记为m,\(M_0\)记为\(m^\star\),则\(Y_{1M_1}\)记为\(Y_{xm}\)\(Y_{1M_0}\)记为\(Y_{xm^\star}\)

4. 总体效应、直接效应与间接效应

以下以第二部分叙述过的药物和阿司匹林的例子[1]来说明各个效应的含义。

总体效应(Total Effect, TE):

\[\begin{align} T E =\mathbb{E}\left[Y_{1}\right]-\mathbb{E}\left[Y_{0}\right] = \mathbb{E}\left[Y_{1M_1}\right] - \mathbb{E}\left[Y_{0M_0}\right] \end{align} \]

  • 服用药物对病情缓解整体上有多大作用?

控制直接效应(Controlled Direct Effect, CDE):

\[\begin{align} CDE = \mathbb{E}\left[Y_{1m}\right] - \mathbb{E}\left[Y_{0m}\right] \end{align} \]

  • 如果在服用药物时,嘱咐患者将阿司匹林用量调整到m,则药物会有多大作用?
    • 注意这里的m是人为定义的,既不是服药前的自然用量,也不是服药后的自然用量,相当于\(do(M=m)\)
    • 由于控制变量——阿司匹林用量是被人为控制的,不是自然的,且衡量的是直接路径的影响(控制了中介变量为m),因此称为“控制直接效应”。

自然直接效应(Natural Direct Effect, NDE or Pure Direct Effect, PDE):

\[\begin{align} NDE = PDE= \mathbb{E}\left[Y_{1M_0}\right] - \mathbb{E}\left[Y_{0M_0}\right] \end{align} \]

  • 如果病人在服用药物的同时,保持阿司匹林服用量不变(不因为药物副作用而改变阿司匹林用量),则药物会有多大效果?
    • 保持阿司匹林的服用量和服药之前一致,这个用量对于不同患者来说是不同的——患者由于基础疾病和身体情况不同,有各自不同的用药习惯。
    • 由于控制变量——阿司匹林用量是“自然”的,且衡量的是直接路径的影响(控制了中介变量为\(M_0\)),因此称为“自然直接效应”。

自然间接效应(Natural Indirect Effect, NIE or Pure Indirect Effect, PIE):

\[\begin{align} NIE = PIE = \mathbb{E}\left[Y_{0M_1}\right] - \mathbb{E}\left[Y_{0M_0}\right] \end{align} \]

  • 如果病人不服药,但是将阿司匹林用量调整到服药后的量,病情会有多大程度的缓解?
    • 只调整阿司匹林的量,估计通过间接路径产生的因果效应。
    • 由于控制变量——不服药是“自然”的,且衡量的是间接路径的影响(控制了服药量为0),因此称为“自然间接效应”

总体直接效应(Total Direct Effect, TDE)

\[\begin{align} TDE = \mathbb{E}\left[Y_{1M_1}\right] - \mathbb{E}\left[Y_{0M_1}\right] \end{align} \]

  • 服药且改变阿司匹林用量,与只改变阿司匹林用量相比,治疗效果有多大提升?
    • 控制阿司匹林用量都是服药后的量,比较服药和不服药的区别。
    • 控制变量——阿司匹林用量是服药后的自然服用量(包含了服药的影响),且衡量的是直接路径的影响(控制了中介变量为\(M_1\)),因此称为“总体直接效应”。

总体间接效应(Total Indirect Effect, TIE)

\[\begin{align} TIE = \mathbb{E}\left[Y_{1M_1}\right] - \mathbb{E}\left[Y_{1M_0}\right] \end{align} \]

  • 在服药的条件下,因为副作用而增加阿司匹林用量对治疗效果有影响吗?
    • 控制变量——服药量为1(不是自然情况,自然情况应该是0),衡量的是间接路径的影响,称为“总体间接效应”。

5. 总体效应的分解

总体效应TE可以被分解为直接效应和间接效应[1,2],或分解为直接效应、间接效应和交互效应[3]。[9]

\[\begin{equation} \begin{aligned} \mathbb{E}\left[Y_{1}\right]-\mathbb{E}\left[Y_{0}\right] =&\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right] \\ =&\underbrace{\left(\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{0M_1}\right]\right)}_{T D E}+\underbrace{\left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P I E/ N I E}\\ =&\underbrace{\left(\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{1M_0}\right]\right)}_{T I E}+\underbrace{\left(\mathbb{E}\left[Y_{1M_0}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P D E/ N D E} \\ =&\left[ \underbrace{\left(\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{1M_0}\right]\right)}_{T I E} - \underbrace{\left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P I E/ N I E} \right] \\ &+\underbrace{\left(\mathbb{E}\left[Y_{1M_0}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P D E/ N D E} + \underbrace{\left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P I E/ N I E}\\ \end{aligned} \end{equation} \]

分析\(\left[ \underbrace{\left(\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{1M_0}\right]\right)}_{T I E} - \underbrace{\left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P I E/ N I E} \right]\)这一项:

  • 如果\(M_1\) = \(M_0\),则此项为0,且总体间接效应和自然间接效应都为0——中介变量不带变的,就没有间接效应了。
  • 如果\(M_1=1, M_0 = 0\),则

\[\begin{equation} \begin{aligned} &(M_1-M_0)=1,\\ &\left(\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{1M_0}\right]\right) - \left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right) = \\ &\left(\mathbb{E}\left[Y_{11}\right]-\mathbb{E}\left[Y_{10}\right] - \mathbb{E}\left[Y_{01}\right]+\mathbb{E}\left[Y_{00}\right]\right)(M_1-M_0) \end{aligned} \end{equation} \]

  • 如果\(M_1=0, M_0 = 1\),则

\[\begin{equation} \begin{aligned} &(M_1-M_0)=-1,\\ &\left(\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{1M_0}\right]\right) - \left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right) \\ =&\left(-\mathbb{E}\left[Y_{11}\right]+\mathbb{E}\left[Y_{10}\right] + \mathbb{E}\left[Y_{01}\right]-\mathbb{E}\left[Y_{00}\right]\right)\\ =&\left(\mathbb{E}\left[Y_{11}\right]-\mathbb{E}\left[Y_{10}\right] - \mathbb{E}\left[Y_{01}\right]+\mathbb{E}\left[Y_{00}\right]\right)(M_1-M_0) \end{aligned} \end{equation} \]

因此,(7)式可进一步推导为:

\[\begin{equation} \begin{aligned} \underbrace{\mathbb{E}\left[Y_{1}\right]-\mathbb{E}\left[Y_{0}\right]}_{TE} =&\underbrace{\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]}_{TE} \\ =&\underbrace{\left(\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{0M_1}\right]\right)}_{T D E}+\underbrace{\left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P I E/ N I E}\\ =&\underbrace{\left(\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{1M_0}\right]\right)}_{T I E}+\underbrace{\left(\mathbb{E}\left[Y_{1M_0}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P D E/ N D E} \\ =&\left[ \underbrace{\left(\mathbb{E}\left[Y_{1M_1}\right]-\mathbb{E}\left[Y_{1M_0}\right]\right)}_{T I E} - \underbrace{\left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P I E/ N I E} \right] \\ &+\underbrace{\left(\mathbb{E}\left[Y_{1M_0}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P D E/ N D E} + \underbrace{\left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P I E/ N I E}\\ =&\underbrace{\left(\mathbb{E}\left[Y_{1M_0}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P D E/ N D E} + \underbrace{\left(\mathbb{E}\left[Y_{0M_1}\right]-\mathbb{E}\left[Y_{0M_0}\right]\right)}_{P I E/ N I E}\\ &+\underbrace{\left(\mathbb{E}\left[Y_{11}\right]-\mathbb{E}\left[Y_{10}\right] - \mathbb{E}\left[Y_{01}\right]+\mathbb{E}\left[Y_{00}\right]\right)(M_1-M_0)}_{Interactive\ Effects} \end{aligned} \end{equation} \]

至此,我们得到了非线性模型总体效应的分解方法:

  • 分解为直接效应和间接效应[1],有总体直接效应+自然间接效应自然直接效应+总体间接效应两种。
  • 分解为直接效应、间接效应和交互效应[3],则是自然直接效应+自然间接效应+交互效应

如果是线性模型,则交互效应为0,\(NDE=TDE, NIE=TIE\)。[1,2,3]

参考文献

[1] J. Pearl, “Direct and indirect effects,” in Proc. 17th Conf. Uncertainty Artif. Intell., 2001, pp. 411–420

[2] Robins J M, Greenland S. Identifiability and exchangeability for direct and indirect effects[J]. Epidemiology, 1992: 143-155.

[3] VanderWeele T J. A three-way decomposition of a total effect into direct, indirect, and interactive effects[J]. Epidemiology (Cambridge, Mass.), 2013, 24(2): 224.

[4] Wang W, Feng F, He X, et al. Clicks can be cheating: Counterfactual recommendation for mitigating clickbait issue[C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021: 1288-1297.

[5] Wei T, Feng F, Chen J, et al. Model-agnostic counterfactual reasoning for eliminating popularity bias in recommender system[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 1791-1800.

[6] Pearl J, Glymour M, Jewell N P. Causal inference in statistics: A primer[M]. John Wiley & Sons, 2016.

[7] Imbens G W, Rubin D B. Causal inference in statistics, social, and biomedical sciences[M]. Cambridge University Press, 2015.

[8] von Kügelgen J, Gresele L, Schölkopf B. Simpson's paradox in Covid-19 case fatality rates: a mediation analysis of age-related causal effects[J]. IEEE Transactions on Artificial Intelligence, 2021, 2(1): 18-27.

[9] Direct and Indirect Effects 馒头and花卷 博客园 https://www.cnblogs.com/MTandHJ/p/14615052.html

posted @ 2021-12-30 10:42  子豪君  阅读(5375)  评论(2编辑  收藏  举报