1. 贝叶斯法则
先举个例子:比如事件X是努力,事件Y是成功,能成功的基本都努力了(条件Y成立时,X必然成立);但是努力不一定都能成功(条件X成立时,Y不是一定成立)。也就是说,X与Y之间的关系不对等,但X和Y又确实有关系。贝叶斯法则就是用来描述这种关系的。
所有要是有人说“成功源于努力,所以努力必能成功”,那是心灵鸡汤。正确的说法是努力能把成功的可能性提高一点。
2. 贝叶斯公式
事件X发生的概率,称为边缘概率,记作P(X) 。
事件Y在事件X已经发生条件下的发生概率,称为条件概率,记为P(Y|X) 。
事件X,Y共同发生的概率称为联合概率,记为P(XY) 或者P(X,Y)。
有公式:
P(XY) = P(Y)P(X|Y)=P(X)P(Y|X)
P(Y|X)=P(XY)/P(X)=P(Y) P(X|Y)/P(X)
还用上面的例子,稍作调整:假设有50%的人努力了,即P(X)=50%;有20%的人成功了P(Y)=20%;且知道成功的人75%都努力了P(X|Y)=75%;求如果努力有多大成功率?
努力且成功的人:P(X,Y)=P(X|Y)P(Y)=75%*20%=15%
努力的人有多大成功率:P(Y|X)=P(X,Y)/P(X)=15%/50%=30%
完整的贝叶斯公式:
完整公式中,分母是所有努力者,即“努力&成功”和“努力&不成功”之和,上例中直接给出这两部分之和:有50%的人努力了。
有时候我们需要自己计算分母,比如将题目改为:有20%的人成功了P(Y1)=20%,成功的人有75%是努力的P(X1|Y1)=75%,不成功的人有43.75%是努力的P(X1|Y0)=43.75%,如上图所示。这里用Y1表示成功Y0表示不成功,X1表示努力X0示不努力。
此时,代入完整公式得到:
3. 相关概念
(1) 先验/后验
先验概率+样本信息=>后验概率
先验概率是在进行一系列具体的观测和实验之前就知道的量P(Y),一般来源于经验和历史资料。而后验概率一般认为是在给定样本的情况下的条件分布P(Y|X)。先验与样本的结合也是:规则和实践的结合。
将学习视为一个减少不确定性的过程,即用X带来的信息不断修改Y判断标准的过程,每一次训练之后,后验变为下一次的先验,不断重复。
(2) 判别模型与生成模型
判别式模型是直接计算条件概率P(Y|X)建模,简单的说就是用正例反例直接做除法算出概率,常见的有线性回归,SVM等。
生成式模型是通过联合概率P(X,Y),和贝叶斯公式求出P(Y|X),其中包括推理的过程,常见的有朴素贝叶斯,HMM等。
(3) 拉普拉斯平滑(修正)
拉普拉斯平滑(Laplace Smoothing)又被称为加 1 平滑,它主要解决的是在概率相乘的过程中,如果有一个值为0,会导致结果为0的问题。
具体的方法是:分子加1,分母加K,K代表类别数目。
比如:p(X1| C1)是指的在垃圾邮件C1这个类别中,单词X1出现的概率。
p(X1|C1)= n1 / n,n1为X1出现的次数,n为总单词数。当X1不出现时P(X1|C1)=0,修正后p(X1|C1)=(n1+1)/(n+N),其中N是词库中所有单词的数目。
(4) 似然函数
概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。
假设条件是X,结果是Y,条件能推出结果X->Y,但结果推不出条件,现在手里有一些对结果Y的观测值,想求X,那么我们举出X的所有可能性,再使用X->Y的公式求Y,看哪个X计算出的Y和当前观测最契合,就选哪个X。这就是求取最大似然的原理。
计算似然函数时,常使用似然函数的对数形式,即“对数似然函数”。它简化了操作(取对数后乘法变为加法),同时也避免了连乘之后值太小的问题。
4. 总结
统计模型的优势在于,用概率代替硬规则,如果两种可能性:0.51:0.49和0.99:0.01,如果用于预测,都会选前面的那种可能性,但是概率能展示出更多的信息。