机器学习基础:朴素贝叶斯小结

机器学习基础:朴素贝叶斯小结

CONTENTS

1. 全概率公式与贝叶斯公式

2. 朴素贝叶斯的模型

3. 朴素贝叶斯的推断过程

4. 朴素贝叶斯的参数估计

5. 朴素贝叶斯算法优缺点

6. 代码实践

1. 全概率公式与贝叶斯公式

\[全概率公式: P(X)=\sum_{k}P(X|Y=Y_k)P(Y_k) \]

\[贝叶斯公式:P(Y_k|X) = \frac{P(X|Y_{k})P(Y_k)}{P(X)} \]

2. 朴素贝叶斯的模型

假设分类模型样本是:

\[(x^{(1)}_1,x^{(1)}_2,...x^{(1)}_n,y_1),(x^{(2)}_1,x^{(2)}_2,...x^{(2)}_n,y_2),...(x^{(m)}_1,x^{(m)}_2,...x^{(m)}_n,y_m) \]

共有m个样本, n个特征, K个类别, 定义为\(C_1, C_2, ... , C_K\)

从样本中可以得到先验分布\(P(Y=C_k)(k=1,2,...,K)\), 也可以根据特定的先验知识定义先验分布。

接着需要得到条件概率分布\(P(X=x|Y=C_k)=P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)\), 然后求得联合分布:

\[\begin{split} P(X,Y=C_k)&=&P(Y=C_k)P(X=x|Y=C_k) (1) \\ &=&P(Y=C_k)P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)(2) \end{split} \]

\(P(Y=C_k)\) 可以用最大似然法求出, 得到的\(P(Y=C_k)\)就是类别\(C_k\)在训练集中出现的频数。但是条件概率分布\(P(X=x|Y=C_k)=P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)\),很难求出,朴素贝叶斯模型在这里做了一个大胆的假设,即Xn个维度之间相互独立,这样就可以得出:

\[P(X_1=x_1,X_2=x_2,...X_n=x_n|Y=C_k)=P(X_1=x_1|Y=C_k)P(X_2=x_2|Y=C_k) \\...P(X_n=x_n|Y=C_k) \]

我们只要计算出所有的K个条件概率\(P(Y=C_k|X=X^{(test)})\),然后找出最大的条件概率对应的类别,这就是朴素贝叶斯的预测。

3. 朴素贝叶斯的推断过程

假设预测的类别\(C_result\)是使\(P(Y=C_k|X=X^{(test)})\)最大化的类别,数学表达式为:

\[\begin{split} C_{result} &= \underset {C_k}{\underset{\underbrace{}}{\operatorname {arg\,max}} }P(Y=C_k|X=X^{(test)}) \\ &= \frac{\underset {C_k}{\underset{\underbrace{}}{\operatorname {arg\,max}} }P(X=X^{(test)}|Y=Ck)P(Y=C_k)}{P(X=X^{(test))}} \\ &=\underset {C_k}{\underset{\underbrace{}}{\operatorname {arg\,max}} }P(X=X^{(test)}|Y=C_k)P(Y=C_k) \end{split} \]

接着利用朴素贝叶斯的独立性假设,就可以得到朴素贝叶斯推断公式:

\[C_{result} = \underset {C_k}{\underset{\underbrace{}}{\operatorname {arg\,max}} } P(Y=C_k)\prod_{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k) \]

4. 朴素贝叶斯的参数估计

4.1 对于离散值特征

假设服从多项式分布,这样得到\(P(X_j=X^{(test)}_j|Y=C_k)\)是在样本类别\(C_k\)中,特征\(X^{(test)}_j\)出现的频率。即:

\[P(X_j=X(test)_j|Y=Ck)=\frac{m_{kj^{test}}}{m_k} \\其中m_k为样本类别C_k总的特征计数,而m_{kj^{test}}为类别为C_k的样本中,第j维特征X^{(test)}_j出现的计数 \]

某些时候,可能某些类别在样本中没有出现,这样可能导致\(P(X_j=X^{(test)}_j|Y=C_k)\)为0,这样会影响后验的估计,为了解决这种情况,引入了拉普拉斯平滑,即此时有:

\[P(X_j=X(test)_j|Y=Ck)=\frac{m_{kj^{test}} + \lambda}{m_k + O_j\lambda} \\其中λ 为一个大于0的常数,常常取为1,O_j为第j个特征的取值个数。 \]

4.2 对于非常稀疏的离散值

假设服从伯努利分布, 即特征\(X_j\)出现记为1,不出现记为0。即只要\(X_j\)出现即可,不关注\(X_j\)的次数。此时有:

\[P(X_j=X^{(test)}_j|Y=C_k)=P(X_j=1|Y=C_k)X^{(test)}_j+(1−P(X_j=1|Y=C_k))(1−X^{(test)}_j)\\ 其中,X^{(test)}_j取值为0和1。 \]

4.3 对于连续值特征

通常假设\(X_j\)的先验概率为正态分布, 有:

\[P(X_j=X^{(test)}_j|Y=C_k)= \frac{1}{\sqrt{2\pi\delta^{2}_{k}}}exp(-\frac{(X_j^{(test)} - \mu_k)^2}{2\delta_k^{2}}) \\其中μ_k和σ^2_k是正态分布的期望和方差,可以通过极大似然估计求得。μ_k为在样本类别C_k中,所有X_j的平均值。\\ σ^2_k为在样本类别C_k中,所有X_j的方差。对于一个连续的样本值,带入正态分布的公式,就可以求出概率分布。 \]

5. 朴素贝叶斯算法优缺点

优点

  • 对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,可以一批批的去增量训练;
  • 对缺失数据不太敏感,算法也比较简单,有稳定的分类效率,常用于文本分类;

缺点

  • 独立性假设在很多情况下并不成立, 在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。
  • 需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
  • 由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
  • 对输入数据的表达形式很敏感。

6. 代码实践

posted @   hou永胜  阅读(330)  评论(0编辑  收藏  举报
编辑推荐:
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
· .NET Core内存结构体系(Windows环境)底层原理浅谈
· C# 深度学习:对抗生成网络(GAN)训练头像生成模型
阅读排行:
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 本地部署DeepSeek后,没有好看的交互界面怎么行!
· 趁着过年的时候手搓了一个低代码框架
· 用 C# 插值字符串处理器写一个 sscanf
· 推荐一个DeepSeek 大模型的免费 API 项目!兼容OpenAI接口!
点击右上角即可分享
微信分享提示