探索因果规律之因果推断基础(ft. The Book of Why by Judea Pearl)

 

https://www.bilibili.com/video/BV17b4y1W7rk/?spm_id_from=autoNext&vd_source=3ad05e655a5ea14063a9fd1c0dcdee3e

   

 

 

 

 

 

 

 

后门准则需要先理解后门路径,后门路径就是在x和y之间有一个指向x的路径,就是有一个指向x的箭头的路径,注意除了指向x的那一小块路径之外,其他箭头的方向是无所谓的。如果所有这些可能的后门路径,都可以用控制变量的方法进行阻断的话,那么这基于do(x)的条件概率就可以使用整张的第一层观测数据进行计算。

 

比如上述的因果图,Z对X和Y都有作用。这是一个经典的分叉结构;不过同时X对Y也会产生影响,根据对backdoor的定义,那xzy这条路线就是一个后门路径。也是唯一的一个后门路径。

如果想要阻断这个路径,就要把z控制住,这里的z就是刚才提到的一个confounder干扰因子。

只要把Z控制住那么基于do操作的概率就可以被一堆条件概率在不同z的作用下概率的均值得到 ,虽然公式看上去挺复杂,但是实际上后门准则是非常直观的,它其实就是统计学中最常见的一种方法,也即如果我想看X对Y的影响,但是同时有什么其它因素也会同时影响X和Y的话,那么就把这些捣乱的因素给控制住,就和刚才冰淇淋的例子意义,把温度控制住之后,就可以直接利用普通的条件概率来计算影响了。

前门准则要比后门准则更复杂一些,它主要解决的问题就是生活中可能存在很多未知的不可控制的干扰因子,如下图的例子中,X可以通过Z的作用得到Y,但是在X和Y之间存在一个不可观察的confounder U,我们认为他存在的,但是我们没有办法策略或者控制,但是有幸发现了变量Z,这个X和Z之间不存在后门路径,Z和Y之间也不存在后门路径,而且X和Y中间也不存在一条可以不通过Z的直接路径,那么此时do calculus也可以直接用条件概率得到。

  

这里最值得注意的就是confounder u会直接从公式中消失,因为现实中经常会有这种干扰因子没有办法观察到的情况。所以前门法则是有非常广泛的应用的,我们这里对前门和后门准则的解释是很简化的。实际上这里的Z可以是一个集合,因为不管是前门路径还是后门路径可能都是非常多的,所以我们需要用更严格的算法去做路径的分析,这点是可以用计算机去代劳的。但不是所有的causal diagram中的 do calculus最后都可以用第一个台阶上的观测数据(也即普通的条件概率进行计算)。所以causal reasoning的另一个直到意义就是告诉我们什么样的问题可以用已有的数据解答;而什么样的问题我们不可以,或者是需要再去采集什么样的数据;因而不会去过度的夸大已有的大数据本身的作用,在总结了一些最浅显的因果推断基础之后,下面通过了解一个小故事来看下如果不去考虑因果关系,而是纯看数据做决策会出现什么样的问题。

1959年UC伯克利大学的生物统计学家jacob yarushalmy做了一个长期的实验,观测婴儿死亡率和母亲吸烟之间的关系,此处注意jacob本人也是一个烟民,有很严重的烟瘾。但其对数据进行了客观的分析(他自己是这么认为的)。yarushalmy把体重作为一个变量控制了起来,并专注于分析不同婴儿体重的死亡率,一般公认婴儿出生时的体重和其成活率是有关系的,但虽然说抽烟的母亲生出的婴儿的体重更轻,抽烟母亲生出体重轻的婴儿的死亡率<不抽烟的母亲生出体重轻的婴儿的死亡率。

 

 

所以如果只看数据可以得出结论:母亲抽烟导致婴儿体重较轻,但是母亲抽烟有利于提高体重轻的婴儿的存活率。(观点错误)。这个观点和大家的经验和直觉是有冲突的,但是直觉和经验是没问题的,数据也没问题。主要是假设条件有问题。

 

 

主要问题是,除了抽烟外,在体重和婴儿死亡之间,还有其他的干扰因子,有很多先天原因也会导致婴儿体重过轻或者是死亡;而这些先天的原因可能让婴儿的死亡率,比抽烟造成的死亡率来的更高。

因而如果把体重给固定下来的话,你一会在抽烟和婴儿死亡之间建立了而一个伪相关。在体重被控制的比较轻的婴儿范围内,抽烟的母亲生出的婴儿更低概率会有先天的问题,所以由此得到抽烟可以降低体重轻小孩死亡率的谬论。

以上都是停留在第二层的因果阶梯上,那么如何更上一层台阶实现反事实的推理呢?

要理解反事实推理我们先来了解中介分析(Mediation Analysis),也即上述提到的是否存在中间人的情况。比如说X导致Y,但是其根本原因在哪?mediation analysis就是去试图理解X是如何导致Y的,是直接还是间接的;比如发现某一个公司里虽说女性员工比例低,但是女性员工面试通过的概率却很高。这里面就需要考虑一个问题:是否女性申请人本身就很优秀,或者女性申请人相对来说实力很强的情况下才会去申请;而不是被特殊照顾。

那么作为一个简化的模型,我们可以把申请人的资质作为一个中间变量进行分析,在做中介分析的时候,经常会去看的一个指标叫做controlled direct effect (CDE),在此问题中,CDE就是说在性别是女,资质是某个m的情况下,面试是否通过的概率,减去性别是男资质是m的某种情况下通过的概率。这里要把资质和性别都完全控制起来。这样就可以知道在资质完全相同的情况下男生和女生的通过率。

要计算cde理论上就要能够随机控制资质和性别。如果数据中男女的资质本身就不同或者数值取值范围比较大的话,而且有不能在性别上做随机试验的话,那么就比较难于做计算。

CDE就是利用第二层阶梯上的这个do operator去定义的。当这个CDE的值越接近于0的时候,男同事们的说法就越有可能是真的。但是如果我们不愿意或者没办法去控制资质时该怎么办呢?毕竟这是一个很主观的东西,相同资质的男女可能在现实中并不存在,这样的控制就变得很没有必要,同时也会导致没办法衡量所看到的面试通过率到底是有多少事来自于性别差异,以及有多少来自真正的资质上的不同。这就要引出另外两个指标nde(natural direct effect)和nie。

nde看的是在中间变量m不变的情况下,只改变x来看y的变化。就是说还是用同样资质的男性,但是想办法在面试过程中把受试者的声音和样貌全部换成女性,然后就可以试图计算一个natural direct effect。

天然的影响nde其实有可能比cde还要更难直接从已有的观测数据上得到。

毕竟理论上没有办法随机要求每个受试者改变自己的性别,但是CDE可能可以直接在数据中找到,比如说用完全相同资质的男女来进行一些分析。

 

NIE就是假设我们不变输入的变量X,而是改变中间变量m,来看看结果有什么不同。那么这次就是让女生全部伪装成男生去面试,但是男生还是正常的去面试。那这个时候计算的结果就是nie,资质是不一样的,但是性别都是男性,

性别对总的通过率的影响其实就是nde从男到女的一个动作,减去nie从女到男的这样一个动作。

total effect(TE)。

TE(男->女)=NDE(男->女)-NIE(女->男)。

因为一个人在现实中不可能即是女生又是男生,所以nde和nie的定义也是有反事实推理的成分的。此故事告诉我们如果公司只是简单的通过申请者最后通过的概率来判断是否存在不公平,显然是不科学的,强调男女的通过率要完全一致更是对改变性别歧视是没有任何的帮助的。

在例子中 ,在已经看到女生的通过率比较高的情况下,如果系统是公平的那么应该看到nde接近于0。而间接影响nie是个负值。于是性别对于通过率的影响仅仅你是由于申请者的优秀程度而决定的;但是反之如果nie接近于0,而nde接近于正值,也就是说间接的资质影响接近于0,那么就可以认为偏见是真实存在的。公司真的是为了改善男女比例而可以偏袒女申请者。同时也告诉我们一个问题,如果我们不透过现象看本质的话,我们很难发现哪些隐藏的不公平,比如说数据上假设发现女性员工和男性员工的通过率是一样的,那么我们就会草率的下结论说现在这个体系是公平的。

但如果上述的假设是存在的,也即女性员工更不愿意打没把握的仗,因而女申请者有可能是真的更优秀的,那么申请与否就变成了资质中的一个干扰项。不是女性比男性优秀,而仅仅是在申请人中的女性比男性优秀。

 

其实不难发现个,在这个例子中我们已经使用了反事实的思想了,因为每个人都可能有自己独特的特质,也即我们并不能同时是男的或女的。上述的视频中改变声音和样貌方法,可以帮助我们计算nde和nie,但是不难发现这里存在反事实的因素,所以不是所有的情况都可以这么容易观察到的,当然反事实推理的思想并不会只是出现在mediation analysis的问题上,Pearl在书中也提到了一个很有意思的法律问题,比如A要杀B,B在奔跑躲避的过程中,结果被高处的钢琴砸死了,那是否应该把B的死归因于A呢?因为我们没有办法去制造一个平行宇宙去模拟B没有死或没有被追的情况;于是法律判定时经常会使用反事实推理。而且律师的出现告诉我们,反事实推理,不要说是电脑了,即便对于人类来说也是非常困难的事情。在最后一章节Pearl也提到了很多关于AI和自由意志的一些思考,其认为一个真正强大的AI应该会不断的反思,不断的从错误中去学习,其实一个人又何尝不是呢?我们对自我的认知可能正来自于我们在因果阶梯的第二层和第三层上做的事情,也即我们的行动和我们的反思。

你会发现虽然大家每天都抱怨工作辛苦,但是真让他闲下来的话,他会觉得更通过,还会不断的找事情做。对周围的任何事进行一些影响。疫情让很多人失去了工作,这些人后续往往就开始反思,过去自己花钱的方式,生活的方式,很多被迫开始居家工作的人,也开始思考工作对于自己真正的意义,有的人甚至选择辞职走上了自由职业者的道路。

Pearl认为人类当前之所以没有能力回答高级的因果问题,是因为人类对于严格意义上的因果分析依然处于相对起步的阶段,

Pearl相信有一天是真正的能够用计算机实现高级的AI的,到时候可能能够真正的轻松化解人类发展过程中遇到的困难。

原话是:AI can be the best gift to humanity。

网友:反思和反事实,还是有距离的。

backdoor path/后门路径
如果一条无向连接X和Y的路径中,有指向X的箭头,则这条路径被称为从X到Y的后门路径。其实就是在这条路中,存在confounder同时影响treatment和outcome

1.后门准则
定义:给定有向无环图(DAG)中一对有序变量(X,Y),如果变量集合Z(可以为空)满足:

Z中没有X的后代节点。
Z阻断了X与Y之间的每条含有指向X的路径。
满足以上两点的Z,就称Z满足关于(X,Y)的后门准则。

如果变量集合Z满足(X,Y)的后门准则,那么X对Y的因果效应可以由下面的公式计算。

证明如下:

 

一般而言,我们希望节点Z最好可以满足下面这些条件:

阻断X和Y之间的所有伪路径(即所有指向X的路径)。
保持所有X到Y的有向路径不变。
不会产生新的伪路径。(例如condition在collider或者其后代上,可能就会产生一条新的伪路径)。
下面展示一个简单的例子:

 

根据上述因果图,估计X对Y的因果效应。从图中可以看出,从X到Y有两条路径,第一条是X-M-Y,第二条是X-W-Y。我们想要估计X对Y的因果效应,就应该要阻断第二条路径。根据上面的后门准则,我们可以发现W满足后门准则,所以我们校正W(或者说Condition在W上),就可以得到X对Y的因果效应。前提是W必须是可观测的!

如果W是不可观测的,那么对于W还可以使用后门准则吗?答案是否定的,因为我们无法观测到W,所以无法阻断X-W-Y这条路径,也就无法消除Confounding association,此时association就不是causation.

2.前门准则
定义:如果一个变量集合Z满足以下条件:

Z切断了所有X到Y的有向路径。
X到Z没有后门路径。
所有Z到Y的后门路径都被X阻断。
则称变量集合Z满足有序变量(X,Y)的前门准则。

如果Z满足变量对(X,Y)的前门准则和Positivity(即),那么X对Y的因果效应是可识别的,且由下式计算:

假设我们有一个这样的因果图:

 

证明如下:

 

对于上面的图,即使W是不可观测的,那么我们依然可以使用前门准则,估计X对于Y的因果效应。

但是有些情况,前后门准则都可能无法使用,例如下面这种情况。

 

因为W1和W2都是无法观测的,无论你使用前门准则还是后门准则,其T对于Y的因果效应总是无法正确估计的。对于这种情况,我们可以使用unconfounded children criterion或者do-calculus来正确估计。这两种方法就不再这里说了,感兴趣的可以自己去看看。

地址为:https://www.bradyneal.com/Introduction_to_Causal_Inference-Dec17_2020-Neal.pdf,在第六章可以看到。

原文链接:https://blog.csdn.net/qq_31063727/article/details/118672598

posted on   lmqljt  阅读(725)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2021-08-28 运筹学笔记11单纯形法的进一步讨论

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示