模式识别学习笔记-lecture2-统计判别2

正态分布模式的贝叶斯分类器

当已知或有理由设想类概率密度函数 $P(x|\omega_i)$ 是多变量的正态分布时，贝叶斯分类器可以导出一些简单的判别函数

$M$ 种模式类别的多变量正态类密度函数

具有 $M$ 种模式类别的多变量正态类密度函数为：
$P(x|\omega_i)=\frac{1}{(2\pi)^{\frac{n}{2}}|C_i|^{\frac{1}{2}}}exp \left\{ -\frac{1}{2}(x - m_i)^TC_i^{-1}(x - m_i) \right\}\ i = 1,2,\cdots,M$
其中每一类模式的分布密度都完全被其均值向量m_i和协方差矩阵 $C_i$ 所规定，其定义为：
$\begin{aligned} m_{i} & = E_{i} {x} \\ C_{i} & = E_{i} {(x - m_{i}) (x - m_{i})^{T}} \end{aligned}$
$E_i\{x\}$ 表示对类别属于 $\omega_i$ 的模型的数学期望。
在上述公式中， $n$ 为模式向量的维数， $C_i|$ 为矩阵 $C_i$ 的行列式，协方差矩阵 $C_i$ 是对称的正定矩阵，其对角线上的元素 $C_{kk}$ 是模式向量第 $k$ 个元素的方差，非对角线上的元素 $C_{jk}$ 是 $x$ 的第 $j$ 个分量 $x_j$ 和第 $k$ 个分量 $x_k$ 的协方差。当 $x_j$ 和 $x_k$ 统计独立时， $C_{jk}=0$ 。当协方差矩阵的全部非对角线上的元素都为0时，多变量正态类密度函数可简化为 $n$ 个单变量正态类密度函数的乘积。
已知类别 $\omega_i$ 的判别函数可写成如下形式：
$d_i(x)=P(x|\omega_i)P(\omega_i), \ i=1,2,\cdots,M$
对于正态密度函数，可取自然对数的形式以方便计算(因为自然对数是单调递增的，取对数后不影响相应的分类性能)，则有：
$d_i(x)=ln[P(x|\omega_i)] + lnP(\omega_i), \ i=1,2,\cdots,M$
代入正态类密度函数，有：
$d_i(x) = lnP(\omega_i)-\frac{n}{2}ln(2\pi)-\frac{1}{2}ln|C_i|-\frac{1}{2}(x - m_i)^TC_i^{-1}(x - m_i),\ i=1,2,\cdots,M$
去掉和 $i$ 无关的项(并不影响分类结果)，有：
$d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C_i|-\frac{1}{2}(x - m_i)^TC_i^{-1}(x - m_i),\ i=1,2,\cdots,M$
即为正态分布模式的贝叶斯判别函数，判别函数是一个超二次曲面

两类问题且其类模式都是正态分布的特殊情况

当 $C_1 \neq C_2$ 时，两类模式的正态分布为： $P(x|\omega_1)$ 表示为 $N(m_1,C_1)$ ， $P(x|\omega_2)$ 表示为 $N(m_2,C_2)$ ， $\omega_1, \omega_2$ 两类的判别函数对应为：
${\begin{cases} > 0 & x \in ω_{1} \\ < 0 & x \in ω_{1} \end{cases}$
判别界面是 $x$ 的二次型方程，当 $x$ 是二维模式时，判别界面为二次曲线，如椭圆、圆、抛物线或双曲线等
当 $C_1 = C_2 = C$ 时，有：
$d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C|-\frac{1}{2}x^TC^{-1}x+\frac{1}{2}x^TC^{-1}m_i + \frac{1}{2}m_i^TC^{-1}x - \frac{1}{2}m_i^TC^{-1}m_i,\ i = 1,2$
因 $C$ 为对称矩阵，上式可简化为：
$d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C|-\frac{1}{2}x^TC^{-1}x + m_i^TC^{-1}x - \frac{1}{2}m_i^TC^{-1}m_i,\ i = 1,2$
由此可导出类别 $\omega_1$ 和 $\omega_2$ 间的判别界面为：
$d_1(x)-d_2(x) = lnP(\omega_1)-lnP(\omega_2)+(m_1-m_2)^TC^{-1}x- \frac{1}{2}m_1^TC^{-1}m_1 + \frac{1}{2}m_2^TC^{-1}m_2 = 0$
判别界面是 $x$ 的线性函数，为一超平面，当 $x$ 是二维时，判别界面为一直线

例题

$P(\omega_1) = P(\omega_2) = \frac{1}{2}$ ，求其判别界面
例题图
模式的均值向量 $m_i$ 和协方差矩阵 $C_i$ 可用下式估计：
$\begin{aligned} m_{1} & = \frac{1}{N_{i}} \sum_{j = 1}^{N_{i}} x_{i j} i = 1, 2 \\ C_{i} & = \frac{1}{N_{i}} \sum_{j = 1}^{N_{i}} (x_{i j} - m_{i}) (x_{i j} - m_{i})^{T} i = 1, 2 \end{aligned}$
其中 $N_i$ 为类别 $\omega_i$ 中模式的数目， $x_{ij}$ 代表在第 $i$ 个类别中的第 $j$ 个模式，由上式可求出：
$\begin{matrix} 3 & 1 & 1 \\ 1 & 3 & - 1 \\ 1 & - 1 & 3 \end{matrix}$
设 $P(\omega_1)=P(\omega_2)=\frac{1}{2}$ ，因 $C_1=C_2$ ，则判别界面为：
$\begin{aligned} d_{1} (x) - d_{2} (x) & = (m_{1} - m_{2})^{T} C^{- 1} x - \frac{1}{2} m_{1}^{T} C^{- 1} m_{1} + \frac{1}{2} m_{2}^{T} C^{- 1} m_{2} \\ = 8 x_{1} - 8 x_{2} - 8 x_{3} + 4 = 0 \end{aligned}$

均值向量和协方差矩阵的参数估计

在贝叶斯分类器中，构造分类器需要知道类概率密度函数 $P(x|\omega_i)$ ，如果按照先验知识已经知道其分布，则只需要知道分布的参数即可

将参数作为非随机变量

均值和协方差矩阵的估计量定义
设模式的类概率密度函数为 $p (x)$ ，则其均值向量定义为：
$\int_xxP(x)dx$
其中， $(x_1,x_2,\cdots,x_n)^T,m = (m_1,m_2,\cdots,m_n)^T$ 。
若以样本的平均值作为均值向量的近似值，则均值估计量 $\hat{m}$ 为：
$\hat{m} = \frac{1}{N}\sum_{j=1}^Nx_j$
其中 $N$ 为样本的数目。
协方差矩阵为：
$\begin{matrix} c_{11} & c_{12} & \dots & c_{1 n} \\ c_{21} & c_{22} & \dots & c_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ c_{n 1} & c_{n 2} & \dots & c_{n n} \end{matrix}$
其每个元素 $c_{lk}$ 定义为：
$\begin{aligned} c_{l k} & = E {(x_{l} - m_{l}) (x_{k} - m_{k})} \\ = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} (x_{l} - m_{l}) (x_{k} - m_{k}) P (x_{l} ， x_{k}) d x_{l} d x_{k} \end{aligned}$
其中， $x_l,x_k,m_l,m_k$ 分别是 $x, m$ 的第 $l, k$ 个分量。
协方差矩阵写成向量形式为：
$C = E\{(x - m)(x - m)^T\} = E\{xx^T\}-mm^T$
协方差矩阵的估计量(当 $\gg 1$ 为：
$\hat{C} \approx \frac{1}{N}\sum^N_{k=1}(x_k-\hat{m})(x_k-\hat{m})^T$
这里样本模式总体为 $\{x_1,x_2,\cdots,x_k,\cdots,x_N\}$ ，为因为计算估计量时没有真实的均值向量 $m$ 可用，只能用均值向量的估计量来代替，会存在偏差。
均值和协方差矩阵估计量的迭代运算形式
假设已经计算了 $N$ 个样本的均值估计量，若再加上一个样本，其新的估计量 $\hat{m}(N+1)$ 为：
$\hat{m}(N+1) = \frac{1}{N+1}\sum_{j=1}^{N+1}x_j = \frac{1}{N+1} \left[ \sum_{j=1}^Nx_j+x_{N+1} \right] = \frac{1}{N+1}\left[N\hat{m}(N) + x_{N+1}\right]$
其中 $\hat{m}(N)$ 为从 $N$ 个样本计算得到的估计量，迭代的第一步应取 $\hat{m}(1)=x_1$ 。
协方差矩阵的估计量的迭代运算与上述相似，取 $\hat{C}(N)$ 表示 $N$ 个样本时的估计量为：
$\hat{C}(N) = \frac{1}{N}\sum_{j=1}^Nx_jx_j^T - \hat{m}(N)\hat{m}^T(N)$
加入一个样本，则：
$\begin{aligned} \hat{C} (N + 1) & = \frac{1}{N + 1} \sum_{j = 1}^{N + 1} x_{j} x_{j}^{T} - \hat{m} (N + 1) {\hat{m}}^{T} (N + 1) \\ = \frac{1}{N + 1} [\sum_{j = 1}^{N} x_{j} x_{j}^{T} + x_{N + 1} x_{N + 1}^{T}] - \hat{m} (N + 1) {\hat{m}}^{T} (N + 1) \\ = \frac{1}{N + 1} [N \hat{C} (N) + N \hat{m} (N) {\hat{m}}^{T} (N) + x_{N + 1} x_{N + 1}^{T}] - \frac{1}{(N + 1)^{2}} [N \hat{m} (N) + x_{N + 1}] {[N \hat{m} (N) + x_{N + 1}]}^{T} \end{aligned}$
其中 $\hat{C}(1) = x_1x_1^T - \hat{m}(1)\hat{m}^T(1)=0$ 是零矩阵

将参数看做随机变量

设 $\{x_1,x_2,\cdots,x_N\}$ 为 $N$ 个用于估计一未知参数 $\theta$ 的密度函数的样本， $x_i$ 被一个接一个的逐次给出，于是用贝叶斯定理，可以得到在给定了 $x_1,x_2,\cdots,x_N$ 之后， $\theta$ 的后延概率密度的迭代表示式为：
$P(\theta|x_1,\cdots,x_N)=\frac{P(x_N|\theta,x_1,\cdots,x_{N-1})P(\theta|x_1,\cdots,x_{N-1})}{P(x_N|x_1,\cdots,x_{N-1})}$
其中对于 $P(\theta|x_1,\cdots,x_N)$ 而言， $P(\theta|x_1,\cdots,x_{N-1})$ 是它的先验概率，当加入了新的样本 $x_N$ 后，得到修正之后的新的概率密度 $P(\theta|x_1,\cdots,x_N)$ 。如此一步步向前推，则 $P(\theta)$ 是最初的先验概率密度，当读入第一个样本 $x_1$ 时，经过贝叶斯定理计算，可得到后验概率密度 $P(\theta|x_1)$ 。以此为新的一步，将 $P(\theta|x_1)$ 作为第二部计算的先验概率密度，读入样本 $x_2$ ，又得到第二步的后验概率密度 $P(\theta|x_1,x_2)$ ，……，以此可以算出最终的后延概率密度 $P(\theta|x_1,\cdots,x_N)$ ，从而得到最终的结果。
这里需要知道最初始的概率密度 $P(\theta)$ 和全概率 $P(x_N|x_1,\cdots,x_{N-1})$ ，全概率可以通过下式算出：
$P(x_N|x_1,\cdots,x_{N-1}) = \int_xP(x_N|\theta,x_1,\cdots,x_{N-1})P(\theta|x_1,\cdots,x_{N-1})d\theta$
这一个值和未知量 $\theta$ 无关，可以认为是一个定值。

posted @ 2022-09-10 20:34 eryo 阅读(75) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 模式识别学习笔记-lecture2-统计判别1

· 模式识别学习笔记-数学知识

· 模式识别期末复习

· [模式识别复习笔记] 第5章贝叶斯分类器

· 模式识别阅读笔记

公告

昵称： eryo
园龄： 5年11个月
粉丝： 0
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

模式识别学习笔记-lecture2-统计判别2

正态分布模式的贝叶斯分类器

$M$ 种模式类别的多变量正态类密度函数

两类问题且其类模式都是正态分布的特殊情况

例题

均值向量和协方差矩阵的参数估计

将参数作为非随机变量

将参数看做随机变量

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

模式识别学习笔记-lecture2-统计判别2

正态分布模式的贝叶斯分类器

M M M种模式类别的多变量正态类密度函数

两类问题且其类模式都是正态分布的特殊情况

例题

均值向量和协方差矩阵的参数估计

将参数作为非随机变量

将参数看做随机变量

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

$M$ 种模式类别的多变量正态类密度函数