- 因果推断方法可以被分为两大类:贝叶斯网络结构学习算法和基于加噪声模型的因果推断算法。具有完整数据的因果推断方法可以被分为两大类: 基于估计马尔可夫等价类的贝叶斯网络结构学习算法和基于加性噪声模型的因果推断算法。
- 贝叶斯网络结构学习算法主要有两种方法.第一种是基于打分-搜索的贝叶斯网络结构学习方法,第二种是基于依赖分析的学习算法.缺点:,这两种方法都无法识别 一个因果网络中存在的马尔可夫等价类,特别是这类方法无法 区分 X→Y 和 Y→X 两种情况。
- 在基于加噪声模型的算法方面
线性:
Shohei等人提出了一种基于线性ANM的算法,可以从数据集中构建出具体的因果网络图,利用 ANM 在缺失数据因果推断中数据填补上将变得更加简易和准确。缺点:只适用于线性加噪声模型,无法解决非线性问题.
非线性:
Hoyer等人提出了一种在基于非线性加噪声模型的适用于连续数据的算法(ANM), Peters 等人对 ANM 算法进行了深一步的推广,使之适用于离散型数据。缺点:非线性加噪声模型算法都只适用很低维的数据集,一旦数据集的维度较大(n>8),准确度就会降到很低;
JonasPeters等人提出了一种基于非线性ANM的算法去解决离散数据的问题,缺点:非线性加噪声模型算法都只适用很低维的数据集,一旦数据集的维度较大(n>8),准确度就会降到很低;
JanzingD等人提出了一种基于信息熵的因果推断算法IGCI,这种算法可以适用于有无噪声的情况,相对于ANM 算法,IGCI 算法能很好地控制判断率,并且在判断率高的时候其对无向图边的方向识别准确率要高于其余的因果推断算法缺点:IGCI也无法处理高维数据,只要维数超过2,方法就失效.
缺失数据:
基于 EM 算法的评分—搜索方法和王双成等人提出的基于依赖分析的 BN-GS 算法。缺点:不能识别到一个准确的因果图,缺点原因:算法都是倾向于拟合数据的( 条件) 概率分布或提高预测的准确性而不太关注局部的因果机制,换句话说,对局部边的方向依然没有准确的判断。
- 因果网络是表示变量间概率依赖关系的有向无环图(DAG),它可表示为一个三元组G=(N,E,P).其中,N={x1,x2,...,xn}表示DAG中的所有节点的集合,每个节点代表一个变量(属性).E={e(xi,xj)|xi,xj∈N}表示DAG中每两个节点间的有向边的集合.其中,e(xi,xj)表示xi,xj间存在依赖关系xi→xj.P={P(xi|xj)|xi,xj∈N}是一组条件概率的集合,其中P(xi|xj)表示xi的父节点集xj对xi的影响.
- d-分离准则:设X、Y、Z是因果无向图G中任意3个互不相交的节点的集合,称Z在图G中d-分离节点集X和Y,记为X⊥Y|Z,如果对任意的从X的节点到Y的一个节点的路P均被Z阻断,也就是路径P上存在一个结点w满足下列其中一个条件:(1)w在P上有—个碰撞箭头,即→w←(此时称w为碰撞点),且w及其后代结点都不在Z中.(2)w在P上无碰撞箭头,即→w→或←w←或←w→,且w∈Z。
- 条件独立性测试:设X、Y、Z是因果无向图G中任意3个互不相交的节点的集合,如果Zd-分离节点集X和Y,那么在给定Z的情况下,X和Y统计独立.
- 互信息:描述了某个变量取值对另外一个变量的取值能力.两个变量间的互信息越大,表明它们之间的关系紧密,反则越小.当且仅当X和Y互相独立的时候,它们之间的互信息I(X;Y)=0.
- ANM定义:若X,Y∈Z,存在噪声变量N∈Z和映射函数F(Z→Z)满足以下条件,则称X到Y能符合ANM;否则,X到Y不能符合ANM。Y=F(X)+N,N⊥X(1)其中:N⊥X表示N与X统计独立。文献[5,6,14]基于ANM利用如下因果推断准则判断变量间的因果方向:若X到Y符合一个ANM,而Y到X不能符合一个ANM,则称X是Y的原因,Y是X的结果,即X、Y方向判定成X→Y(Y→X同理判定);若X到Y和Y到X都符合ANM,那么X、Y之间的方向是可逆的(即XY);若X到Y和Y到X不能符合ANM,那么X、Y之间的方向无法确定,需要其他方法判断。
[ 5] Shimizu S,Hoyer P O,Hyvarinen A,et al. A linear non-Gaussian acyclic model for causal discovery[J] . The Journal of Machine Learning Research, 2006, 7( 4) :2003-2030.
[ 6] Hoyer P O,Janzing D,Moolj J M,et al. Nonlinear causal discovery with additive noise models[C]/ /Advances in Neural Information Processing Systems.[S. l. ]: MIT Press, 2009:689-696.
[ 14]Zhang Kun,Hyvrinen A. Causality discovery with additive disturbances: an informationtheoretical perspective[C]/ /Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2009:570-585.
- 贝叶斯网络结构学习以变量(节点)的条件概率(后验概率)作为学习参数的缺点:条件概率只是在联合概率分布下刻画变量间的联系,没有真实反映变量之间的因果信息。
- 最大似然估计的优点:最大似然估计是统计意义上最优的参数估计方法,它比其他可选择的参数估计方法更加简单有效,特别在样本增加时,其收敛性质会更好。