[模式识别复习笔记] 第5章贝叶斯分类器

1. 贝叶斯分类器

1.1 贝叶斯公式

假设有一个试验的样本空间为 \(S\)，记 \(B_1, B_2, \ldots, B_c\) 为 \(S\) 的一个划分，\(A\) 为试验的条件，且 \(P(A) \not = 0\)，则：

\[P(B_i | A) = \frac{P(B_i)P(A|B_i)}{P(A)} = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{c}P(B_j)P(A|B_j)} \]

\(P(B_i)\) 先验概率：\(B_i\) 发生的概率，与 \(A\) 的发生无关。

\(P(A|B_i)\) 条件概率：\(B_i\) 发生的情况下，\(A\) 发生的概率。

\(P(B_i|A)\) 后验概率：\(A\) 发生的情况下，\(B_i\) 发生的概率，该概率根据 先验概率 和 条件概率 计算后得到。

对于一个包含 \(c\) 个类别 \(\{ w_1, \ldots, w_c \}\) 的一个分类问题，记 \(P(w_i|\bm{x})\) 表示观察特征向量取值为 \(\bm{x}\) 时，\(\bm{x}\) 属于 \(w_i\) 的概率，也即 后验概率。

若特征向量 \(\bm{x}\) 取值每一维度连续，则贝叶斯公式为：

\[P(w_i|\bm{x}) = \frac{P(w_i)p(\bm{x}|w_i)}{p(\bm{x})} = \frac{P(w_i)p(\bm{x}|w_i)}{\sum_{j=1}^{c}P(w_j)p(\bm{x}|w_j)} \]
其中 \(p(\bm{x})\) 称为特征向量取值为 \(\bm{x}\) 的概率密度；\(P(w_i)\) 为 \(w_i\) 类实例出现的概率，即 先验概率；\(p(\bm{x}|w_i)\) 为 \(w_i\) 类中特征向量取值为 \(\bm{x}\) 的概率密度，称为 类条件概率密度。
若特征向量 \(\bm{x}\) 取值每一维度离散，则贝叶斯公式为：

\[P(w_i|\bm{x}) = \frac{P(w_i)P(\bm{x}|w_i)}{P(\bm{x})} = \frac{P(w_i)p(\bm{x}|w_i)}{\sum_{j=1}^{c}P(w_j)P(\bm{x}|w_j)} \]

1.2 贝叶斯分类

贝叶斯的分类规则 为将 \(\bm{x}\) 分到 后验概率 最大的对应的类别中。

假设把 \(\bm{x}\) 分到 \(w_{i^{*}}\) 类中：

\[i^{*} = \text{argmax}_{i=1, \ldots, c} P(w_i|\bm{x}) \]

等价于:

\[i^{*} = \text{argmax}_{i=1, \ldots, c} P(w_i)p(\bm{x}|w_i) \]

先验概率时分类的基础，后验概率在获取更多信息后，对先验概率进行修正而得到。

1.3 贝叶斯分类的错误率

记 \(P(error|\bm{x})\) 为观察到实例的特征向量取值为 \(\bm{x}\) 时，贝叶斯分类的错误率。则：

\[P(error|\bm{x}) = 1 - P(w_{i^{*}}|\bm{x}) = 1 - \max_{i=1, \ldots, c}P(w_i|\bm{x}) \]

故贝叶斯分类的总错误率为 \(P(error)\):

\[P(error) = \int\limits_{\mathbb R^{d}}^{} p(\bm{x})P(error|\bm{x}) \mathrm{d}\bm{x} \]

贝叶斯分类 通过 最小化 \(P(error|\bm{x})\) 来最小化总体的错误率。

1.4 最小化风险的贝叶斯分类

假设将 \(\bm{x}\) 分为 \(w_i\) 类，这一决策记为 \(\alpha_i\)。

损失 \(\lambda(\alpha_i|w_j)\) 定义为真实状态类别为 \(w_j\) 时，采取决策 \(\alpha_i\) 所导致的损失。通常是由一个函数设定。

条件风险 \(R(\alpha_i | \bm{x})\) 表示观察到实例对应的特征向量取值为 \(\bm{x}\) 时，将 \(\bm{x}\) 分为 \(w_i\) 类（采取决策 \(\alpha_i\)）所产生的期望损失。有如下表达式：

\[R(\alpha_i|\bm{x}) = \sum_{j=1}^{c}P(w_j|\bm{x})\lambda(\alpha_i|w_j) \]

PS；一般情况下，\(\lambda(\alpha_i|w_i) = 0\)。

由此得到 最小化风险的贝叶斯分类规则，即将 \(\bm{x}\) 分为 \(w_i\) 类（采取决策 \(\alpha_i\)）:

\[i^{*} = \text{argmin}R(\alpha_i|\bm{x}) \]

假设损失函数 \(\lambda\) 定义为：

\[\lambda(\alpha_i|w_j) = \begin{cases} 0, & \mathrm{if} \ i = j \\\\ 1, & \mathrm{if} \ i \not = j \end{cases} \]

也就是 \(\text{0-1}\) 损失函数。

带入条件风险计算公式得：

\[R(\alpha_i|w_j) = \sum_{j=1}^{c}P(w_j|\bm{x}) \lambda(\alpha_i|w_j) = \sum_{j, j \not = i}^{c}P(w_j|\bm{x}) = 1 - P(w_i|\bm{x}) \]

可以发现 \(1 - P(w_i|\bm{x})\) 就等价于 \(\bm{x}\) 被分为 \(w_i\) 时，贝叶斯分类的错误率。因此，当 采用 \(\text{0-1}\) 损失时，最小化风险就等价于最小化错误率（和前面找到最大后验概率的贝叶斯是等价的）：

\[\text{argmin}_{i} R(\alpha_i | \bm{x}) = \text{argmax}_i P(w_i|\bm{x}) \]

2. 正态分布下的贝叶斯分类器

2.1 正态分布的概率密度函数

单变量 的正态分布

\(x \in \mathbb{R}, x \sim \mathcal{N}(\mu, \sigma^2)\)，有：

\[p(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x - \mu)^2}{2\sigma^2}} \]
多变量 的正态分布

\(\bm{\bm{x}} \in \mathbb{R}^d, \bm{x} \sim \mathcal{N}(\mu, \Sigma)\)，有：

\[p(\bm{x}) = \frac{1}{(2\pi)^{\frac{d}{2}}|\Sigma|^{\frac{1}{2}}}e^{-\frac{1}{2}(\bm{x} - \bm{\mu})^{\text{T}}\Sigma^{-1}(\bm{x} - \bm{\mu})} \]
\(\bm{x}\) 为 \(d\) 维向量，\(\bm{\mu}\) 为 \(d\) 维的均值向量。

\(\Sigma\) 为 \(d\times d\) 的协方差矩阵，\(\Sigma_{ij} = cov(x^{(i)}, x^{(j)})\)。\(|\Sigma|\) 和 \(\Sigma^{-1}\) 为 \(\Sigma\) 的行列式和逆矩阵。

2.2 判别函数表示贝叶斯分类规则

对于一个有 \(c\) 个类别的分类问题，定义 \(c\) 个判别函数：

\[g_i(\bm{x}) = P(w_i|\bm{x}) = P(w_i)p(\bm{x}|w_i) \]

或者

\[g_i(\bm{x}) = \ln p(\bm{x}|w_i) + \ln P(w_i) \]

分类规则：将 \(\bm{x}\) 分到最大的 \(g_i(\bm{x})\) 对应的类别，也就是 \(w_i\) 类中。

2.3 正态分布下的贝叶斯分类

取判别函数 \(g_i(\bm{x}) = \ln p(\bm{x}|w_i) + \ln P(w_i), \ i = 1, \ldots, c\)。

假设 \(w_i\) 类实例对应的特征向量服从 \(\mathcal{N}(\mu, \Sigma)\) 正态分布：

\[p(\bm{x}|w_i) = \frac{1}{(2\pi)^{\frac{d}{2}}|\Sigma_i|^{\frac{1}{2}}}e^{-\frac{1}{2}(\bm{x} - \bm{\mu}_i)^{\text{T}}\Sigma^{-1}_i(\bm{x} - \bm{\mu}_i)} \]

带入到判别函数 \(g_i(\bm{x})\):

\[g_i(\bm{x}) = -\frac{1}{2}(\bm{x} - \bm{\mu}_i)^{\text{T}}\Sigma^{-1}_i(\bm{x} - \bm{\mu}_i) - \frac{d}{2}\ln 2\pi - \frac{1}{2}\ln |\Sigma_i| + \ln P(w_i) \]

其中 \(\frac{d}{2}\ln 2\pi\) 不影响比较结果，可忽略。

故判别函数简化为：

\[g_i(\bm{x}) = -\frac{1}{2}(\bm{x} - \bm{\mu}_i)^{\text{T}}\Sigma^{-1}_i(\bm{x} - \bm{\mu}_i) - \frac{1}{2}\ln |\Sigma_i| + \ln P(w_i) \]

每类正态分布的 协方差矩阵均相等，各类中 各个维度的特征相互独立且方差相同，每类样本 先验概率 相等，即 \(\Sigma_i = \sigma^2 I, \ i = 1, \ldots, c\)（其中 \(I\) 为单位阵）

可知 \(P(w_i) = \frac{1}{c}, \ i = 1, \ldots, c\)，带入 \(g_i(\bm{x})\) 可得：

\[g_i(\bm{x}) = -\frac{1}{2\sigma^2}(\bm{x} - \bm{\mu}_i)^{\text{T}}(\bm{x} - \bm{\mu}_i) - \ln c - d \ln \sigma \]

其中 \(- \ln c - d \ln \sigma\) 不影响结果。

故判别函数简化为：

\[g_i(\bm{x}) = -\frac{1}{2\sigma^2}(\bm{x} - \bm{\mu}_i)^{\text{T}}(\bm{x} - \bm{\mu}_i) = -\frac{1}{2\sigma^2}||\bm{x} - \bm{\mu}_i||^2 \]

根据前面提到的分类规则（将 \(\bm{x}\) 分到最大的 \(g_i(\bm{x})\) 对应的类别，也就是 \(w_i\) 类中。），规则本质转化为：

\[i^{*} = \text{argmax}_i ||\bm{x} - \bm{\mu}_i||^2，将 \bm{x} 分为 w_i 类 \]

也就是说，\(\bm{x}\) 距离哪一类的均值向量最近，就分为哪一类。（最近邻，欧氏距离度量）

2.4 分类决策面函数

第 \(i\) 类和第 \(j\) 类之间的分类决策超平面方程满足：

\[g_i(\bm{x}) - g_j(\bm{x}) = 0 \]

将 \(g_i(\bm{x})\) 和 \(g_j(\bm{x})\) 带入，可以整理成：

\[\bm{w}^{\text{T}}(\bm{x} - \bm{b}) = 0 \]

得到:

\[\begin{split} & \bm{w} = \bm{\mu}_i - \bm{\mu}_j \\\\ & \bm{b} = \frac{1}{2}(\bm{\mu}_i + \bm{\mu}_j) \end{split} \]

可以发现，贝叶斯分类器转换成了一个 线性分类器

3. 贝叶斯分类器的训练

3.1 参数估计

先验概率 \(P(w_j)\) 的估计
1. 当训练样本足够多时，且每个样本随机抽取，可以直接用 训练集中 \(w_j\) 样本所占比例来估计 \(P(w_j)\)：
  
  \[\hat P(w_j) = \frac{n_j}{N} \]
  其中 \(n_j\) 为训练集中 \(w_j\) 类样本的个数，\(N\) 为训练集中样本总数。
2. 如果训练样本不随机，也可以假设各类样本的出现时等概率的：
  
  \[P(w_j) = \frac{1}{c} \]
  其中 \(c\) 为类别的总数。

类条件概率密度 \(p(x|w_j)\) 的估计
1. 非参数化估计方法
  
  直接对概率 \(p(x|w_j)\) 函数本身进行估计，不必假设其服从某一分布。
2. 参数化估计方法
  
  先假定 \(p(\bm{x}|w_j)\) 具有特定的分布形式（如正态分布、二项分布），但是 分布参数未知，需要用训练集来更新参数。
  - 最大似然估计：将估计参数 \(\bm{\theta}\) 看作固定的量，但是取值未知。然后找到一组参数的值，最大化训练集所有样本出现的联合概率密度 \(p(D^{j}|\bm{\theta})\)。（每一类样本集 \(D^j\) 有对应不同的参数 \(\theta^{j}\)）
  - 贝叶斯估计：：将估计参数 \(\bm{\theta}\) 看作随机的量，具有已知的先验概率密度函数 \(p(\bm{\theta})\)。观察到 \(w_j\) 类样本集 \(D^j\)，将参数 \(\bm{\theta}\) 的先验概率密度函数 \(p(\bm{\theta})\) 转换为后验概率密度函数 \(p(\bm{\theta}| D^j)\)。

3.2 最大似然估计法

最大似然估计的假设：

\(D^{j}\) 中包含 \(n\) 个实例样本，即 \(D^{j} = \{ \bm{x}_1, \bm{x}_2, ... \bm{x}_n \}\)
\(p(\bm{x}|\bm{\theta^{j}})\) 记为 \(w_j\) 类的条件概率密度函数。

\(D^j\) 中每个 \(x_i\) 都是根据密度函数 \(p(\bm{x}|\bm{\theta^{j}})\) 的分布独立采样得到的。（独立同分布）

样本集 \(D^j\) 中所有样本的联合概率密度可以表示为：

\[p(D^j | \bm{\theta}^{j}) = \prod_{i=1}^{n} p(\bm{x}_i | \bm{\theta}^{j}) \]

称之为 似然函数 \(L(\bm{\theta}^j)\)，即：

\[L(\bm{\theta}^j) = p(D^j | \bm{\theta}^j) \]

最大似然估计就是 找到最优的 \(\bm{\theta}^j\) 的取值，使得似然函数 \(L(\bm{\theta}^j)\) 取得最大值。一般通过令导数为 0 求极值点来求解。

上述似然函数为乘积形式，因此转换为对数更好求解：

\[\ln L(\bm{\theta}^j) = \sum_{i=1}^{n} \ln p(\bm{x}_i | \bm{\theta}^j) \]

令对数似然函数关于 \(\bm{\theta}^j\) 的导数为 \(0\) （向量）并求出极值点，从而得到 \(\bm{\theta}^j\) 的估计值：

\[\nabla_{\bm{\theta}^j} \ln L(\bm{\theta}^j) = \sum_{i=1}^{n} \ln p(\bm{x}_i | \bm{\theta}^j) = 0 \]

例题 1

假设 \(D^j\) 中样本根据 正态分布 \(\mathcal{N}(\bm{\mu}, \bm{\Sigma})\) 得到，\(\bm{\mu}, \bm{\Sigma}\) 未知，要求用 \(\text{MLE}\) （最大似然估计）对这些参数进行估计。

解：

似然函数：

\[\begin{split} L(\bm{\mu}, \bm{\Sigma}) &= \prod_{i=1}^{n}p(\bm{x}_i | \bm{\mu}, \bm{\Sigma}) \\\\ &= (\frac{1}{(2\pi)^{\frac{d}{2}}|\bm{\Sigma}|^{\frac{1}{2}}})^{n} e^{-\frac{1}{2} \sum_{i=1}^{n}(\bm{x}_i - \bm{\mu})^{\text{T}}\bm{\Sigma}^{-1}(\bm{x}_i - \bm{\mu})} \end{split} \]
对数似然函数：

\[\ln L(\bm{\mu}, \bm{\Sigma}) = -\frac{dn}{2}\ln 2\pi - \frac{n}{2}\ln |\bm{\Sigma}| - \frac{1}{2}\sum_{i=1}^{n}(\bm{x}_i - \bm{\mu})^{\text{T}}\bm{\Sigma}^{-1}(\bm{x}_i - \bm{\mu}) \]
分别对 \(\bm{\mu}, \bm{\Sigma}\) 求梯度：

\[\nabla_{\bm{\mu}} \ln L(\bm{\mu}, \bm{\Sigma}) = \sum_{i=1}^{n}\bm{\Sigma}^{-1}(\bm{x}_i - \bm{\mu}) = 0 \]
\[\nabla_{\bm{\Sigma}} \ln L(\bm{\mu}, \bm{\Sigma}) = -\frac{n}{2}(\bm{\Sigma}^{-1})^{\text{T}} + \frac{1}{2}\sum_{i=1}^{n}\bm{\Sigma}^{-\text{T}}(\bm{x_i} - \bm{\mu})(\bm{x_i} - \bm{\mu})^{\text{T}}\bm{\Sigma}^{-\text{T}} = 0 \]

PS：常用求导公式如下：

\[\frac{\partial \bm{a}^{\text{T}}\bm{X}\bm{b}}{\partial \bm{X}} = \bm{a}\bm{b}^{\text{T}} \]

\[\frac{\partial \bm{a}^{\text{T}}\bm{X}^{-1}\bm{b}}{\partial \bm{X}} = -\bm{X}^{-\text{T}}\bm{a}\bm{b}^{\text{T}}\bm{X}^{-\text{T}} \]

\[\frac{\partial \ln |\bm{X}|}{\partial \bm{X}} = (\bm{X})^{-\text{T}} \]

求解上述方程可以得到最终的参数估计值：

\[\hat{\bm{\mu}} = \frac{1}{n}\sum_{i=1}^{n}\bm{x}_i \]

\[\hat{\bm{\Sigma}} = \frac{1}{n}\sum_{i=1}^{n}(\bm{x}_i - \hat{\bm{\mu}})^{\text{T}}(\bm{x}_i - \hat{\bm{\mu}}) \]

例题 2

假设 \(D^j\) 中样本根据 伯努利分布 得到，即 \(p(x|\theta) = \theta^{x}(1 - \theta)^{1 - x}\) ，其中 \(x = {0, 1}\) ，\(0 \le \theta \le 1\)，要求用 \(\text{MLE}\) （最大似然估计）对 \(\theta\) 进行估计。

解：

似然函数：

\[\begin{split} L(\theta) &= \prod_{i=1}^{n}p(x_i|\theta) \\\\ &= \prod_{i=1}^{n}\theta^{x_i}(1 - \theta)^{1 - x_i} \\\\ &= \theta^{\sum_{i=1}^{n}x_i} (1 - \theta)^{\sum_{i=1}^{n}(1 - x_i)} \end{split} \]
对数似然函数：

\[\ln L(\theta) = (\sum_{i=1}^{n}x_i)\ln \theta + (\sum_{i=1}^{n}(1 - x_i))\ln (1 - \theta) \]
对 \(\theta\) 求梯度：

\[\nabla_{\theta}\ln L(\theta) = \frac{1}{\theta}\sum_{i=1}^{n}x_i - \frac{1}{1 - \theta}\sum_{i=1}^{n}(1 - x_i) = 0 \]
整理可得：

\[\frac{1}{\theta}\sum_{i=1}^{n}x_i + \frac{1}{1 - \theta}\sum_{i=1}^{n}x_i = \frac{n}{1 - \theta} \]
即：

\[\frac{1}{\theta (1 - \theta)} \sum_{i=1}^{n}x_i = \frac{n}{1 - \theta} \]

求解上述方程可以得到最终的参数估计值：

\[\hat{\theta} = \frac{1}{n}\sum_{i=1}^{n}x_i \]

3.3 贝叶斯估计法

贝叶斯估计法的假设：

\(p(\bm{x}|\bm{\theta^{j}})\) 形式已知，参数 \(\bm{\theta}^j\) 未知，是一个随机量。具有已知的先验概率密度函数 \(p(\bm{\theta}^j)\)。
\(D^j\) 中每个 \(x_i\) 都是根据密度函数 \(p(\bm{x}|\bm{\theta^{j}})\) 的分布独立采样得到的。

样本集 \(D^j\) 中所有样本的联合概率密度可以表示为：

\[p(D^j | \bm{\theta}^{j}) = \prod_{i=1}^{n} p(\bm{x}_i | \bm{\theta}^{j}) \]

利用贝叶斯公式，计算观察到 \(D^j\) 后 \(\bm{\theta}^j\) 的 后验概率密度：

\[\begin{split} p(\bm{\theta}^j | D^j) &= \frac{p(\bm{\theta}^j)p(D^j | \bm{\theta}^j)}{p(D^j)} \\\\ &= \frac{p(\bm{\theta}^j)p(D^j | \bm{\theta}^j)}{\int p(\bm{\theta}^j)p(D^j | \bm{\theta}^j)\mathrm{d}\bm{\theta}^j} \end{split} \]

求得参数 \(\hat{\bm{\theta}^j}\):

\[\hat{\bm{\theta}^j} = \int \bm{\theta}^j p(\bm{\theta}^j | D^j) \mathrm{d}\bm{\theta}^j \]

例题 1

给定一个样本集 \(D = \{ x_1, x_2, \ldots, x_n \}\)，设 \(D\) 中的每个样本都是根据 一维的正态分布 \(\mathcal{N}(\mu, \sigma^2)\) 相互独立采样得到，参数 \(\mu\) 未知，\(\sigma^2\) 已知。参数 \(\mu\) 服从一个已知的先验概率分布 \(\mathcal{N}(\mu_0, \sigma_0^2)\)。
要求用贝叶斯估计法对参数 \(\mu\) 进行估计。

解：

由题意可知：

\[p(x|\mu) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x - \mu)^2}{2\sigma^2}} \]

\[p(\mu) = \frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{(\mu - \mu_0)^2}{2\sigma_0^2}} \]

计算 \(p(D | \mu)\):

\[\begin{split} p(D | \mu) &= \prod_{i=1}^{n}p(x_i | \mu) \\\\ &= (\frac{1}{\sqrt{2\pi} \sigma})^{n} e^{-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i - \mu)^2} \end{split} \]
计算参数 \(\mu\) 的 后验概率密度 \(p(\mu | D)\):

\[\begin{split} p(\mu | D) & \propto p(\mu)p(D | \mu) \\\\ & \propto e^{-\frac{1}{2}[(\frac{n}{\sigma^2} + \frac{1}{\sigma^2_0})\mu^2 - 2(\frac{1}{\sigma^2}\sum_{i=1}^{n}x_i + \frac{\mu_0}{\sigma^2_0}\mu)]} \\\\ & \propto e^{-\frac{1}{2\sigma^2_n}(\mu - \mu_n)^2} \end{split} \]
其中：

\[\mu_n = \frac{\sigma^2}{n\sigma^2_0 + \sigma^2}\mu_0 + \frac{n\sigma_0^2}{n\sigma^2_0 + \sigma^2}\mu_{\text{MLE}} \]
\[\mu_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^{n} x_i \]
\[\frac{1}{\sigma_n^2} = \frac{n}{\sigma^2} + \frac{1}{\sigma_0^2} \]
密度函数 \(p(\mu | D)\) 的分布的 数学期望 是 \(\mu_n\)，因此参数 \(\mu\) 的贝叶斯估计为：

\[\hat{\mu} = \mu_n \]

例题 2

给定一个训练集 \(D = \{ x_1, x_2, \ldots, x_n \}\)，样本是根据 伯努利 分布采样得到，即 \(p(x|\theta) = \theta^x (1 - \theta)^{1-x}\) ，其中参数 \(\theta\) 未知，\(x = \{ 0, 1 \}\)，\(0 \le \theta \le 1\)。

已知参数 \(\theta\) 服从一个已知的先验概率分布为 \(Beta\) 分布，即 \(\theta \sim Beta(\alpha, \beta)\):

\[p(\theta) = C \cdot \theta^{\alpha - 1}(1 - \theta)^{\beta - 1} \]

PS：\(Beta\) 分布的期望为 \(\frac{\alpha}{\alpha + \beta}\) 。

要求用贝叶斯估计法对参数 \(\theta\) 进行估计。

解：

计算 \(p(D | \theta)\):

\[\begin{split} p(D|\theta) &= \prod_{i=1}^{n}p(x_i|\theta) \\\\ &= \prod_{i=1}^{n}\theta^{x_i}(1 - \theta)^{1 - x_i} \\\\ &= \theta^{\sum_{i=1}^{n}x_i} (1 - \theta)^{\sum_{i=1}^{n}(1 - x_i)} \end{split} \]
计算参数的 后验概率密度 \(p(\theta | D)\):

\[\begin{split} p(\theta | D) &= \frac{p(\theta)p(D | \theta)}{p(D)} \\\\ & \propto \theta^{\alpha + \sum_{i=1}^n x_i - 1}(1 - \theta)^{\beta + n - \sum_{i=1}^{n}x_i - 1} \end{split} \]
可以看出 \(p(\theta | D)\) 服从一个 \(Beta(\alpha + \sum_{i=1}^{n}x_i, \beta + n - \sum_{i=1}^{n}x_i)\) 的分布。
由密度函数 \(p(\theta | D)\) 的分布的 数学期望 ，得到参数 \(\theta\) 的贝叶斯估计为：

\[\begin{split} \hat{\theta} &= \frac{\alpha + \sum_{i=1}^{n}x_i}{\alpha + \beta + n} \\\\ &= \frac{\alpha + \beta}{\alpha + \beta + n}\cdot \frac{\alpha}{\alpha + \beta} + \frac{n}{\alpha + \beta + n}\theta_{\text{MLE}} \end{split} \]
其中 \(\theta_{\text{MLE}} = \frac{1}{n}\sum_{i=1}^n x_i\) 。

posted @ 2024-06-20 23:33 MarisaMagic 阅读(160) 评论(0) 编辑收藏举报

刷新页面返回顶部

MarisaMagic

[模式识别复习笔记] 第5章 贝叶斯分类器