贝叶斯网络
贝叶斯分类器
频率学派和贝叶斯学派分歧:
- 频率学派认为参数虽然未知,但是是客观存在的固定值,可通过优化似然函数确定固定值;
- 贝叶斯学派认为参数是未观察到的随机变量,本身也有分布,因此可假设参数的先验分布,根据观察到的数据计算参数的后验分布;
贝叶斯公式
其中 \(P(y)\) 是先验概率,\(P(x|y)\) 为似然,\(P(x)\) 是归一化的证据因子。
P(y) 表示样本空间中,样本所占的比列,根据大数定律,当训练集包含充足的独立同分布的样本时,\(P(c)\) 可以通过各类样本的频率来进行估计。
概率模型的训练过程就是参数估计的过程。
极大似然估计
来源于频率学派,是根据数据采样估计概率分布参数的方法。
步骤:
- 写出似然函数
- 求似然函数对数
- 求导数
- 解似然方程
对于离散属性
对于连续属性,假设 \(p(\boldsymbol{x} | c) \sim \mathcal{N}\left(\boldsymbol{\mu}_{c}, \boldsymbol{\sigma}_{c}^{2}\right)\),则参数 \(\mu_c\) 和 \(\sigma_c^2\)的估计为
朴素贝叶斯
后验概率 \(P(y|x)\) 需要求解类条件概率 \(P(x|c)\),而这是所有属性上的联合概率,难以求解。添加属性条件独立性假设。
注意:估计概率值要进行平滑操作。
拉普拉斯修正假设实际上假设了属性值与类别均匀分布。
半朴素贝叶斯分类器
对属性条件独立做放缩。
贝叶斯网络
主要需要确定属性之间的依赖关系
补充
大数定律
概率论中讨论随机变量和的平均值的收敛情况, 是数理统
计学中参数估计的理论基础
中心极限定理
是概率论中讨论随机变量和的分布以正态分布为极限的一组定理, 这组定理是数理统计学和误差分析的理论基础, 指出了大量随机变量近似服从正态分布的条件.
大数定律
定理1: 设\(\{X_n\}\) 是一系列随机同分布的随机变量序列,具有公共的数学期望 \(\mu\) 和 方差 \(\sigma^{2}\),则
即 \(\{X_n\}\) 服从弱大数定律。
引理1: (Chebyshev不等式) 设随机变量 \(X\) 的方差存在,则
定理1的证明: 利用 Chebyshev 不等式,有 \(E\overline{X}=\mu\),\(Var\overline{X}=\sigma^2/n\),可得:
中心极限定理
定理: 设 \(\{X_n\}\) 满足独立同分布,具有公共期望 \(\mu\) 和方差 \(\sigma^2\),则 \(X_1+\cdots +X_n\) 的标准形式 \(\frac{1}{\sqrt{n}\sigma}(X_1+\cdots+X_n-n\mu)\) 满足中心极限定理,即对任意的 \(x\in\R\),有
其中 \(F_n(x)\) 为 \(\frac{1}{\sqrt{n}\sigma}(X_1+\cdots+X_n-n\mu)\) 的分布函数,记为