贝叶斯网络

贝叶斯分类器

频率学派和贝叶斯学派分歧：

频率学派认为参数虽然未知，但是是客观存在的固定值，可通过优化似然函数确定固定值；
贝叶斯学派认为参数是未观察到的随机变量，本身也有分布，因此可假设参数的先验分布，根据观察到的数据计算参数的后验分布；

贝叶斯公式

\[P(y|x)=\frac{P(y)P(x|y)}{P(x)} \]

其中 \(P(y)\) 是先验概率，\(P(x|y)\) 为似然，\(P(x)\) 是归一化的证据因子。

P(y) 表示样本空间中，样本所占的比列，根据大数定律，当训练集包含充足的独立同分布的样本时，\(P(c)\) 可以通过各类样本的频率来进行估计。

概率模型的训练过程就是参数估计的过程。

极大似然估计

来源于频率学派，是根据数据采样估计概率分布参数的方法。

步骤：

写出似然函数
求似然函数对数
求导数
解似然方程

对于离散属性

\[\hat{\boldsymbol{\theta}}_{c}=\underset{\boldsymbol{\theta}_{c}}{\arg \max } L L\left(\boldsymbol{\theta}_{c}\right) \]

对于连续属性，假设 \(p(\boldsymbol{x} | c) \sim \mathcal{N}\left(\boldsymbol{\mu}_{c}, \boldsymbol{\sigma}_{c}^{2}\right)\)，则参数 \(\mu_c\) 和 \(\sigma_c^2\)的估计为

\[\begin{aligned} \hat{\boldsymbol{\mu}}_{c} &=\frac{1}{\left|D_{c}\right|} \sum_{\boldsymbol{x} \in D_{c}} \boldsymbol{x} \\ \hat{\boldsymbol{\sigma}}_{c}^{2} &=\frac{1}{\left|D_{c}\right|} \sum_{\boldsymbol{x} \in D_{c}}\left(\boldsymbol{x}-\hat{\boldsymbol{\mu}}_{c}\right)\left(\boldsymbol{x}-\hat{\boldsymbol{\mu}}_{c}\right)^{\mathrm{T}} \end{aligned} \]

朴素贝叶斯

后验概率 \(P(y|x)\) 需要求解类条件概率 \(P(x|c)\)，而这是所有属性上的联合概率，难以求解。添加属性条件独立性假设。

注意：估计概率值要进行平滑操作。

拉普拉斯修正假设实际上假设了属性值与类别均匀分布。

半朴素贝叶斯分类器

对属性条件独立做放缩。

贝叶斯网络

主要需要确定属性之间的依赖关系

补充

大数定律
概率论中讨论随机变量和的平均值的收敛情况, 是数理统
计学中参数估计的理论基础

中心极限定理
是概率论中讨论随机变量和的分布以正态分布为极限的一组定理, 这组定理是数理统计学和误差分析的理论基础, 指出了大量随机变量近似服从正态分布的条件.

大数定律

定理1： 设\(\{X_n\}\) 是一系列随机同分布的随机变量序列，具有公共的数学期望 \(\mu\) 和方差 \(\sigma^{2}\)，则

\[\overline{X}=\frac{1}{n} \sum_{k=1}^{n} X_{k} \stackrel{p}{\rightarrow} \mu \]

即 \(\{X_n\}\) 服从弱大数定律。

引理1： (Chebyshev不等式) 设随机变量 \(X\) 的方差存在，则

\[P(|X-E X| \geq \varepsilon) \leq \frac{\operatorname{Var}(X)}{\varepsilon^{2}}, \quad \forall \varepsilon>0 \]

定理1的证明： 利用 Chebyshev 不等式，有 \(E\overline{X}=\mu\)，\(Var\overline{X}=\sigma^2/n\)，可得：

\[P(|\overline{X}-\mu| \geq \varepsilon) \leq \sigma^{2} /\left(n \varepsilon^{2}\right) \rightarrow 0, \quad n \rightarrow \infty \quad \forall \varepsilon>0 \]

中心极限定理

定理： 设 \(\{X_n\}\) 满足独立同分布，具有公共期望 \(\mu\) 和方差 \(\sigma^2\)，则 \(X_1+\cdots +X_n\) 的标准形式 \(\frac{1}{\sqrt{n}\sigma}(X_1+\cdots+X_n-n\mu)\) 满足中心极限定理，即对任意的 \(x\in\R\)，有

\[\lim _{n \rightarrow \infty} F_{n}(x)=\Phi(x) \]

其中 \(F_n(x)\) 为 \(\frac{1}{\sqrt{n}\sigma}(X_1+\cdots+X_n-n\mu)\) 的分布函数，记为

\[\frac{1}{\sqrt{n} \sigma}\left(X_{1}+\cdots+X_{n}-n \mu\right) \stackrel{d}{\rightarrow} N(0,1) \]

posted @ 2019-05-21 10:27 静_渊阅读(224) 评论(0) 编辑收藏举报

刷新页面返回顶部

静渊

静渊以有谋，疏通而知事

贝叶斯网络

贝叶斯分类器

极大似然估计

朴素贝叶斯

半朴素贝叶斯分类器

贝叶斯网络

补充

大数定律

中心极限定理

公告

静 渊

静渊以有谋，疏通而知事

贝叶斯网络

贝叶斯分类器

极大似然估计

朴素贝叶斯

半朴素贝叶斯分类器

贝叶斯网络

补充

大数定律

中心极限定理

公告

静渊