概率论基础知识

链式法则:\(P(\alpha_1,\alpha_2,\alpha_3,\alpha_4...\alpha_k) = P(\alpha_1)P(\alpha_2|\alpha_1)...P(\alpha_k|\alpha_1,\alpha_2,\alpha_3...\alpha_{k-1})\)

贝叶斯规则:\(P(\alpha |\beta) = \frac{P(\beta |\alpha)P(\alpha)}{P(\beta)}\)

边缘分布:如P(Intellegence=high) = 0.3;P(Intelleigence=high) = 0.7;

联合分布:如P(Intellegence,Grade)

条件独立:假定是否MIT录取仅根据Grade做决定,则得到Stanford录取的事实并不会改变是否MIT录取的概率,即P(MIT|Stanford,Grade) = P(MIT|Grade),称给定Grade的情况下,MIT与Stanford独立

查询分布:1.计算P(Y|E=e)。以及对变量的一些子集找到一个高概率的联合赋值,

如2.最大后验概率查询(MAP),在Z=X-E的情况下,\(MAP(W|e)=argmax_{w}P(w,e)\),即为W寻找最可能的联合赋值,例如满足P(W|e)*P(e)最大化而非仅仅P(W|e)最大化

3.边缘最大后验概率查询(Z=X-Y-E的情况下),\(MAP(Y|e)=argmax_{Y}\sum_{Z}P(Y,Z|e)\),其中包含了一个条件概率查询

表示

I-Map:P是X上的分布,I(P)为在P中成立的如\((X\perp Y|Z)\)独立断言的集合。若有一个图G,\(I(G)\subset I(P)\),称G为P的一个I-Map

有效迹(无observed):是否会相互影响,如X->W->Y中X Y相互影响,仅在X->W<-Y的v-structure中,X Y相互独立

有效迹(observed Z):在W不属于Z时,除非W时Z的decent,否则一样,W属于Z时,相反

d-sepration:设X,Y,Z是图G的三个节点集,给定Z的条件下,若任意节点\(x \in X\)\(y \in Y\)之间不存在有效迹,称X Y在给定Z时d-sepration,写作\(d-sep_{G}(X;Y|Z)\)

朴素贝叶斯

朴素贝叶斯由图可见\((X_i \perp X_j|C) for all X_i X_j\),各个变量间相互独立,可看成一个结构固定的N叉树样子的贝叶斯网络,因此\(P(C,X1,X2,X3,...,Xn)=P(C)\prod_{i=1}^{n}P(X_i|C)\)

因此可推出\(\frac{P(C=c_1|x_1,...,x_n)}{P(C=c_2|x_1,...,x_n)}=\frac{P(C=c_1)}{P(C=c_2)}\prod_{i=1}^{n}\frac{P(x_i|C=c_1)}{P(x_i|C=c_2)}\)

伯努利朴素贝叶斯

伯努利模型以文件为粒度,其中的\(X_i\)指此单词在多少文件中出现过,\(P(X_i|C)=(类C下包含单词X_i的文件数+1)/(类c的文档总数+n)\)

多项式朴素贝叶斯

多项式以单词数为粒度,其中的\(X_i\)指此单词在某类的文件中共出现多少次,\(P(X_i|c)=(类c下包含单词X_i的数目+1)/(类c的文档中单词总数+单词类别数)\)