[因果推断工具箱] 因果图

因果关系演算法由两种语言组成:其一为因果图,用以表达我们已知的事物,其二为类似代数的符号语言,用以表达我们想知道的事物。

一、因果图概念

1.1 定义

因果图(causal diagrams)是由简单的点和箭头组成的图,它们能被用于概括现有的某些科学知识。
点代表目标量,我们称之为“变量”,每个点都在 {真, 假} 中取值。
箭头代表这些变量之间已知或疑似存在的因果关系,即哪个变量“听从于”哪个变量。

因果图的优点在于其清晰易懂,可以为我们想问的许多问题提供明确的答案。

例如,我们想要知道某件事情发生时会如何,那么可以在因果图中删除指向该事件对应节点的所有箭头,并将对应的变量设置为规定值(真),通过分析此时的因果图,即可得到结论。
这样做的原理为:使某事发生就意味着将它从所有其它影响因子中解放出来,并使它受限于唯一的影响因子——能强制其发生的那个因子。

1.2 示例

1.2.1 行刑队因果图

假设一个犯人将要被行刑队执行枪决,首先,法院方面要下令处决犯人。命令下达到行刑队队长后,他将指示行刑队的士兵(A和B)执行枪决。我们假设他们是服从命令的专业枪手,只听命令射击,并且只要其中任何一个枪手开了枪,囚犯都必死无疑。
该情境的因果图如下所示。图中的每个未知量(CO, C, A, B, D)都是一个真/假变量。例如,D=真,意思是犯人已死;D=假,意思是犯人还活着。CO=假,意思是法院的死刑命令未签发;CO=真,意思则是死刑命令已签发,以此类推。
image

1.2.2 天花疫苗接种因果图

假设100万儿童中有99%接种了疫苗,1%没有接种。对于接种了疫苗的儿童来说,一方面,他有1%的可能性出现不良反应,这种不良反应有1%的可能性导致儿童死亡。另一方面,这些接种了疫苗的儿童不可能得天花。相对的,对于一个未接种疫苗的儿童来说,他显然不可能产生接种后的不良反应,但他有2%的概率得天花。最后,让我们假设天花的致死率是20%。该问题的因果图如下:
image

二、接合关系

接合(junction)是包含两个连接的三节点网络,是所有贝叶斯网络及因果网络的构建模块。接合有三种基本形式:

1.链接合/中介接合(A→B→C)
链结合是最简单的接合表现形式。在科学中,人们常常将B视为某种机制,或“中介物”,它将A的效应传递给C。

例:“火灾→烟雾→警报”

在链结合中,中介物B“屏蔽”(screen off)了从A到C的信息或从C到A的信息。例如,一旦我们知道了烟雾的“值”,关于火的任何新信息便不会再以任何理由让我们增强或削弱对警报的信念。

2.叉接合(A←B→C)
在叉接合中,B通常被视作A和C的共因(common cause)混杂因子(confounder)。混杂因子会使A和C在统计学上发生关联,即使它们之间并没有直接的因果关系。

例:“鞋的尺码←孩子的年龄→阅读能力”

穿较大码的鞋的孩子往往阅读能力较强。但这种关系是非因果的——给孩子穿大一号的鞋不会让他有更强的阅读能力,相反,这两个变量的变化都可以通过第三个变量,即孩子的年龄来解释。越年长的孩子鞋码越大,他们的阅读能力也越强。

3.对撞(collider)接合(A→B←C)
当以变量B为条件时,对撞接合与链接合或叉接合的运作方式正好相反。如果A和C原本是相互独立的,那么给定B将使它们彼此相关。

例:才华→名人←美貌

若只选著名演员的数据,那么我们就会看到才华与美貌之间出现了负相关,这种负相关可以解释为:发现某位名人并不美貌这一事实,会使我们更相信他富有才华。这种负相关有时被称为对撞偏倚“辩解”效应(explain-away effect)

三、信息在因果图中的流动

直观理解:可以将连接看作一个管道,管道将信息从X点传递到Y点。
信息的传递是双向的,既在因果方向传递,也在非因果方向传递。
非因果路径是混杂的根源。

如何阻断信息在接合中的流动:
a. 链接和(A→B→C):控制B可防止有关A的信息流向C或C的信息流向A
b. 叉接合(A←B→C):控制B可以防止有关A的信息流向C或C的信息流向A
c. 对撞接合(A→B←C):控制B后由于辩解效应的存在,信息会在“管道”中流通

参考资料

朱迪亚·珀尔,达纳·麦肯齐 著,江生,于华 译,“为什么:关于因果关系的新科学”,中信出版集团,2019.

posted @ 2022-04-21 10:54  千凉_ryou  阅读(454)  评论(0编辑  收藏  举报