机器学习——贝叶斯分类器
1 前言
贝叶斯学派很古老,但是从诞生到一百年前一直不是主流。主流是频率学派。频率学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾,但是贝叶斯学派硬是凭借在现代特定领域的出色应用表现为自己赢得了半壁江山。
贝叶斯学派的思想可以概括为 先验概率+数据=后验概率。也就是说我们在实际问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。数据大家好理解,被频率学派攻击的是先验概率,一般来说先验概率就是我们对于数据所在领域的历史经验,但是这个经验常常难以量化或者模型化,于是贝叶斯学派大胆的假设先验分布的模型,比如正态分布,beta分布等。这个假设一般没有特定的依据,因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的逻辑,但是在很多实际应用中,贝叶斯理论很好用,比如垃圾邮件分类,文本分类。
2 概率论基础
2.1 样本空间的划分
定义 设$\Omega $为试验$E$的样本空间,$B_{1} ,B_{2} ,B_{3} ,...B_{n} $为 E 的一组事件,若
1:$B_{i}B_{j}=\phi ,i,j=1,2....n$
2:$B_{1}\cup B_{2} \cup B_{3} \cup ...\cup B_{n} =\Omega $
则称$B_{1} ,B_{2} ,B_{3} ,...B_{n} $为样本空间$\Omega $的一个划分。
2.2 联合概率
联合概率指的是包含多个条件且所有条件同时成立的概率,记作 $P(X=a,Y=b)$。
2.3 条件分布
条件概率表示在条件 $Y=b$ 成立的情况下,$X=a$ 的概率,记作 $P(X=a|Y=b)$。它具有如下性质:“在条件 $Y=b$ 下 X 的条件分布”也是一种“ $X$ 的概率分布”,因此穷举 $X$ 的可取值之后,所有这些值对应的概率之和为 1 即 $\sum \limits _aP(X=a|Y=b)=1$
2.4 联合概率与边缘概率的关系
$P(X=a)=\sum \limits _bP(X=a,Y=b)$
3 贝叶斯定理
3.1 条件独立公式
如果 X 和 Y 相互独立,则有:$P(X,Y)=P(X)P(Y)$
3.2 条件概率公式
$P(Y|X)=\frac{P(X,Y)}{P(X)}$
$P(X|Y)=\frac{P(X,Y)}{P(Y)}$
3.3 全概率公式
定义 设$\Omega $为试验 E 的样本空间, A 为 E 的事件,$B_{1} ,B_{2} ,B_{3} ,...B_{n} $为$\Omega $的一个划分 且 $P(B_{i})>0,(i=1,2...n)$,公式
$P(A)=P(A|B_{1})P(B_{1})+...+ P(A|B_{n})P(B_{n})=\sum_ \limits{i=1}^{n}P(B)P(A|B_{i})$
3.4 贝叶斯公式
$P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}=\frac{P(X|Y)P(Y)}{\sum_kP(X|Y=Y_k)P(Y_k)}$
因上求缘,果上努力~~~~ 作者:图神经网络,转载请注明原文链接:https://www.cnblogs.com/BlairGrowing/p/14822797.html