模式识别学习笔记-lecture3-判别函数1

线性判别函数

模式识别系统的主要作用：判别各个模式(样本)所属的类别

用判别函数分类的概念

判别函数进行分类依赖的因素：

判别函数的几何性质：线性的和非线性的函数
判别函数的系数

两类问题的判别函数

若 $x$ 是二维模式样本 $x = (x_1,x_2)^T$ ，用 $x_1,x_2$ 作为坐标分量，可以画出模式的平面图，若这些分属于 $\omega_1,\omega_2$ 两类的模式可以用一个直线方程 $d(x) = 0$ 来划分：

d (x) = ω_{1} x_{1} + ω_{2} x_{2} + ω_{3} = 0

$d(x) = \omega_1x_1 + \omega_2x_2 + \omega_3 = 0$

其中 $x_1,x_2$ 为坐标分量， $\omega_1,\omega_2,\omega_3$ 为参数方程，则将一个不知类别的模式代入 $d(x)$ ，有：

d (x) {\begin{cases} > 0 & x \in ω_{1} \\ < 0 & x \in ω_{2} \end{cases}

$d(x) \begin{cases} \gt 0 & x \in \omega_1 \\ \lt 0 & x \in \omega_2 \end{cases}$

此时 $d(x) = 0$ 称为判别函数。

n维线性判别函数的一般形式

d (x) = ω_{1} x_{1} + ω_{2} x_{2} + \dots + ω_{n} x_{n} + ω_{n + 1} = ω_{0}^{T} x + ω_{n + 1}

$d(x) = \omega_1x_1 + \omega_2x_2 + \cdots + \omega_nx_n + \omega_{n + 1} = \omega_0^Tx + \omega_{n+1}$

其中 $\omega_0 = (\omega_1,\omega_2,\cdots,\omega_n)^T$ 称为权向量或参数向量， $x = (x_1,x_2,\cdots,x_n)^T$ ， $d(x)$ 还可以表示为：

d (x) = ω^{T} x

$d(x) = \omega^Tx$

其中 $x = (x_1,x_2,\cdots,x_n,1)^T$ 称为增广模式向量， $\omega = (\omega_1,\omega_2,\cdots,\omega_{n+1})^T$ 称为增广权向量

两类情况判别函数：

d (x) = ω^{T} x {\begin{cases} > 0 & x \in ω_{1} \\ \leq 0 & x \in ω_{2} \end{cases}

$d(x) = \omega^Tx \begin{cases} \gt 0 & x \in \omega_1 \\ \leq 0 & x \in \omega_2 \end{cases}$

第一种多类情况：
用线性判别函数将属于 $\omega_i$ 类的模式与不属于 $\omega_i$ 类的模式分开，其判别函数为：

d_{i} (x) = ω_{i}^{T} x = {\begin{cases} > 0 & x \in ω_{i} \\ \leq 0 & x \notin ω_{i} \end{cases}, i = 1, 2, \dots, M

$d_i(x) = \omega_i^Tx = \begin{cases} \gt 0 & x \in \omega_i \\ \leq 0 & x \notin \omega_i \end{cases},i = 1,2,\cdots,M$

一个区域明确属于某一类的条件是除了这一类的判别函数的值大于0，其他判别函数的值均小于等于0，否则该区域为不确定区域

第二种多类情况：
采用每对划分，即 $\omega_i/\omega_j$ 两分法，一个判别界面只能分开两种类别，其判别函数为：

d_{i j} (x) = ω_{i j}^{T} x

$d_{ij}(x) = \omega_{ij}^Tx$

如果 $d_{ij} \gt 0,\forall j \neq i$ ，那么 $x \in \omega_i$ ；
有一个性质 $d_{ij} = -d_{ji}$ ;
要分开 $M$ 类模式，共需要 $M(M - 1) / 2$ 个判别函数；
不确定区域：若所有 $d_{ij}(x)$ ，找不到 $\forall j \neq i,d_{ij}(x) \gt 0$ 的情况；

第三种多类情况：
第二种多类情况的特例，是没有不确定区域的 $\omega_i/\omega_j$ 两分法，此时对 $M$ 类情况有 $M$ 个判别函数

d_{k} (x) = ω_{k}^{T} x, k = 1, 2, \dots, M

$d_k(x) = \omega_k^Tx,k = 1,2,\cdots,M$

即 $d_i(x) \gt d_j(x),\forall j \neq i,i,j = 1,2,\cdots,M$ 那么 $x \in \omega_i$ ，将分类的特点是将 $M$ 类情况分为 $M - 1$ 个两类问题

广义线性判别函数

一个训练用的模式集 $\{x\}$ ，在模式集空间 $x$ 中线性不可分，但在模式空间 $x^*$ 中线性可分，其中 $x^*$ 的各个分量是 $x$ 的单值实函数， $x^*$ 的维数 $k$ 高于 $x$ 的维数 $n$ ，即若取

x^{*} = (f_{1} (x), f_{2} (x), \dots, f_{k} (x)), k > n

$x^* = (f_1(x),f_2(x),\cdots,f_k(x)),k \gt n$

则分类界面在 $x^*$ 中是线性的，在 $x$ 中是非线性的，此时只要将模式 $x$ 进行非线性变换，使之变换后得到维数更高的模式 $x^*$ ，就可以用线性判别函数来进行分类
一个非线性判别函数可如下表示：

d (x) = ω_{1} f_{1} (x) + ω_{2} f_{2} (x) + \dots + ω_{k} f_{k} (x) + ω_{k + 1}

$d(x) = \omega_1f_1(x) + \omega_2f_2(x) + \cdots + \omega_kf_k(x) + \omega_{k + 1}$

其中 $\{f_i(x),i = 1,2,\cdots,k\}$ 是模式 $x$ 的单值实函数，若定义为广义形式：

x^{*} = (f_{1} (x), f_{2} (x), \dots, f_{k} (x), 1)^{T}

$x^* = (f_1(x),f_2(x),\cdots,f_k(x),1)^T$

此时有：

d (x^{*}) = ω^{T} x^{*}

$d(x^*) = \omega^Tx^*$

其中 $\omega = (\omega_1,\omega_2,\cdots,\omega_k,\omega_{k + 1})$

f_i(x)选用二次多项式函数

$x$ 是二维的情况，即 $x = (x_1\ x_2)^T$ ，判别函数为：

d (x) = ω_{11} x_{1}^{2} + ω_{12} x_{1} x_{2} + ω_{22} x_{2}^{2} + ω_{1} x_{1} + ω_{2} x_{2} + ω_{3}

$d(x) = \omega_{11}x_1^2 + \omega_{12}x_1x_2 + \omega_{22}x_2^2 + \omega_1x_1 + \omega_2x_2 + \omega_3$

线性化为 $d(x^*) = \omega^Tx^*$

x^{*} = (\begin{matrix} x_{1}^{2} & x_{1} x_{2} & x_{2}^{2} & x_{1} & x_{2} & 1 \end{matrix})^{T} ω = (\begin{matrix} ω_{11} & ω_{12} & ω_{22} & ω_{1} & ω_{2} & ω_{3} \end{matrix})^{T}

$x^* = (\begin{matrix} x_1^2 & x_1x_2 & x_2^2 & x_1 & x_2 & 1\end{matrix})^T \\ \omega = (\begin{matrix} \omega_{11} & \omega_{12} & \omega_{22} & \omega_1 & \omega_2 & \omega_3\end{matrix})^T$

此时 $x^*$ 的维数为5，原维数为2

$x$ 是 $n$ 维的情况，判别函数为：

d (x) = \sum_{j = 1}^{n} ω_{j j} x_{j}^{2} + \sum_{j = 1}^{n - 1} \sum_{k = j + 1}^{n} ω_{j k} x_{j} x_{k} + \sum_{j = 1}^{n} ω_{j} x_{j} + ω_{n + 1}

$d(x) = \sum_{j = 1}^n\omega_{jj}x_j^2 + \sum_{j = 1}^{n - 1}\sum_{k = j + 1}^n\omega_{jk}x_jx_k + \sum_{j = 1}^n\omega_jx_j + \omega_{n + 1}$

其中有平方项 $n$ 个，二次项 $n(n - 1)/2$ 个，一次项 $n$ 个，常数项 $1$ 个，总项数为：

n + n (n + 1) / 2 + n + 1 = (n + 1) (n + 2) / 2 > n

$n + n(n + 1) / 2 + n + 1 = (n + 1)(n + 2)/2 \gt n$

$x^*$ 的各分量的一般化形式为：

f_{i} (x) = x_{p_{1}}^{s} x_{p_{2}}^{t}, p_{1}, p_{2} = 1, 2, \dots, n, s, t = 0, 1

$f_i(x) = x_{p_1}^sx_{p_2}^t,p_1,p_2 = 1,2,\cdots,n,s,t = 0,1$

f_i(x)为 $r$ 次多项式函数

$x$ 为 $n$ 维模式：

f_{i} (x) = x_{p_{1}}^{s_{1}} x_{p_{2}}^{s_{2}} \dots x_{p_{r}}^{s_{r}}, p_{1}, p_{2}, \dots, p_{r} = 1, 2, \dots, n, s_{1}, s_{2}, \dots, s_{r} = 0, 1

$f_i(x) = x_{p_1}^{s_1}x_{p_2}^{s_2}\cdots x_{p_r}^{s_r},p_1,p_2,\cdots,p_r = 1,2,\cdots,n,s_1,s_2,\cdots,s_r = 0,1$

判别函数 $d(x)$ 可以用以下递推式给出：
常数项： $d^{(0)}(x) = \omega_{n + 1}$
一次项： $d^{(1)}(x) = \sum_{p_1 = 1}^n\omega_{p_1}x_{p_1} + d^{(0)}(x)$
二次项： $d^{(2)}(x) = \sum_{p_1 = 1}^n\sum_{p_2 = p_1}^n\omega_{p_1p_2}x_{p_1}x_{p_2} + d^{(1)}(x)$
$r$ 次项： $d^{(r)}(x) = \sum_{p_1 = 1}^n\sum_{p_2 = p_1}^n\cdots\sum_{p_r = p_{r - 1}}^n\omega_{p_1p_2\cdots p_r}x_{p_1}x_{p_2}\cdots x_{p_r} + d^{(r - 1)}(x)$
$d(x)$ 总项数为：

N_{ω} = C_{n + r}^{r} = \frac{(n + r)!}{r! n!}

$N_\omega = C_{n + r}^r = \frac{(n + r)!}{r!n!}$

分段线性判别函数

分段线性判别函数的设计：最小距离分类
设 $\mu_1$ 和 $\mu_2$ 为两个模式类 $\omega_1$ 和 $\omega_2$ 的聚类中心，定义决策规则：

| | x - μ_{1} | |^{2} - | | x - μ_{2} | |^{2} {\begin{cases} < 0 & x \in ω_{1} \\ > 0 & x \in ω_{2} \end{cases}

$||x - \mu_1||^2 - ||x - \mu_2||^2 \begin{cases} \lt 0 & x \in \omega_1 \\ \gt 0 & x \in \omega_2 \end{cases}$

这时的决策面是两类期望连线的垂直平分面，这样的分类器称为最小距离分类器

模式空间和权空间

设有判别函数： $d(x) = \omega^Tx$ ，其中 $x = (x_1\ x_2\ \cdots\ \ x_n\ 1)^T,\omega = (\omega_1\ \omega_2\ \cdots\ \omega_n\ \omega_{n + 1})^T$ ，判别界面为 $\omega^Tx = 0$

Fisher线性判别

目的：在低维空间里解析上或计算上行得通的方法，在高维空间里往往行不通，降低维数有时就会成为处理实际问题的关键，考虑将 $d$ 维空间的样本投影到一条直线上，形成一维空间，即把维数压缩到一维，我们需要根据实际情况找到一条最易分类的投影线，这就是Fisher判别方法要解决的基本问题
从 $d$ 维空间到一维空间的一般数学变换方法：假设有一集合 $\Gamma$ 包含 $N$ 个 $d$ 维样本 $x_1,x_2,\cdots,x_N$ ，其中 $N_1$ 个属于 $\omega_1$ 类的样本记为子集 $\Gamma_1$ , $N_2$ 个属于 $\omega_2$ 类的样本记为子集 $\Gamma_2$ ，若对 $x_n$ 的分量做线性组合可得标量：

y_{n} = ω^{T} x_{n}, n = 1, 2, \dots, N

$y_n = \omega^Tx_n,n = 1,2,\cdots,N$

这样得到 $N$ 个一维样本 $y_n$ 组成的集合，并可分为两个子集 $\Gamma_1',\Gamma_2'$ ，实际上， $\omega$ 的值是无关紧要的，重要的是 $\omega$ 的方向，方向直接影响分类效果，我们希望投影以后，在一维 $Y$ 空间中各类样本尽可能分得开些，即希望两类均值之差越大越好，同时希望各类样本内部尽量密集，即希望样本类内离散度越小越好

Fisher准则函数中的基本参量

在 $d$ 维 $X$ 空间

各类样本的均值向量 $m_i$

m_{i} = \frac{1}{N_{i}} \sum_{x \in Γ_{i}} x, i = 1, 2

$m_i = \frac{1}{N_i}\sum_{x \in \Gamma_i}x,i = 1,2$

样本类内离散度矩阵 $S_i$ 和总样本类内离散度矩阵 $S_\omega$

S_{i} = \sum_{x \in Γ_{i}} (x - m_{i}) (x - m_{i})^{T}, i = 1, 2 S_{ω} = S_{1} + S_{2}

$S_i = \sum_{x \in \Gamma_i}(x - m_i)(x - m_i)^T,i = 1,2 \\ S_\omega = S_1 + S_2$

样本类间离散度矩阵 $S_b$

S_{b} = (m_{1} - m_{2}) (m_{1} - m_{2})^{T}

$S_b = (m_1 - m_2)(m_1 - m_2)^T$

$S_b$ 是对称半正定矩阵
在一维 $Y$ 空间

各类样本的均值

{\tilde{m}}_{i} = \frac{1}{N_{i}} \sum_{y \in Γ_{i}^{'}} y, i = 1, 2

$\tilde{m}_i = \frac{1}{N_i}\sum_{y \in \Gamma_i'}y,i = 1,2$

样本类内离散度 $\tilde{S}_i^2$ 和总样本类内离散度 $\tilde{S}_\omega$

{\tilde{S}}_{i}^{2} = \sum_{y \in Γ_{i}^{'}} (y - {\tilde{m}}_{i})^{2}, i = 1, 2 {\tilde{S}}_{ω} = {\tilde{S}}_{1}^{2} + {\tilde{S}}_{2}^{2}

$\tilde{S}_i^2 = \sum_{y \in \Gamma_i'}(y - \tilde{m}_i)^2,i = 1,2 \\ \tilde{S}_\omega = \tilde{S}_1^2 + \tilde{S}_2^2$

Fisher准则函数

J_{F} (ω) = \frac{({\tilde{m}}_{1} - {\tilde{m}}_{2})^{2}}{{\tilde{S}}_{1}^{2} + {\tilde{S}}_{2}^{2}}

$J_F(\omega) = \frac{(\tilde{m}_1 - \tilde{m}_2)^2}{\tilde{S}_1^2 + \tilde{S}_2^2}$

希望两类均值之差越大越好，同时希望各类样本内部尽量密集，即希望样本类内离散度越小越好，所以应该寻找使 $J_F(\omega)$ 尽可能大的 $\omega$ 作为投影方向，下面需要将 $J_F(\omega)$ 变为 $\omega$ 的显函数：
首先由各类样本的均值可推出：

{\tilde{m}}_{i} = \frac{1}{N_{i}} \sum_{y \in Γ_{i}^{'}} y = \frac{1}{N_{i}} \sum_{x \in Γ_{i}} ω^{T} x = ω^{T} (\frac{1}{N_{i}} \sum_{x \in Γ_{i}} x) = ω^{T} m_{i}

$\tilde{m}_i = \frac{1}{N_i}\sum_{y \in \Gamma_i'}y = \frac{1}{N_i}\sum_{x \in \Gamma_i}\omega^Tx = \omega^T\left( \frac{1}{N_i}\sum_{x \in \Gamma_i}x\right) = \omega^Tm_i$

这样Fisher准则函数 $J_F(\omega)$ 的分子可以写成：

\begin{aligned} ({\tilde{m}}_{1} - {\tilde{m}}_{2})^{2} & = (ω^{T} m_{1} - ω^{T} m_{2})^{2} \\ = (ω^{T} m_{1} - ω^{T} m_{2}) (ω^{T} m_{1} - ω^{T} m_{2})^{T} \\ = (ω^{T} m_{1} - ω^{T} m_{2}) (m_{1}^{T} ω - m_{2}^{T} ω) \\ = ω^{T} (m_{1} - m_{2}) (m_{1} - m_{2})^{T} ω = ω^{T} S_{b} ω \end{aligned}

$\begin{aligned} (\tilde{m}_1 - \tilde{m}_2)^2 &= (\omega^Tm_1 - \omega^Tm_2)^2 \\ &= (\omega^Tm_1 - \omega^Tm_2)(\omega^Tm_1 - \omega^Tm_2)^T \\ &= (\omega^Tm_1 - \omega^Tm_2)(m_1^T\omega - m_2^T\omega) \\ &= \omega^T(m_1 - m_2)(m_1 - m_2)^T\omega = \omega^TS_b\omega \end{aligned}$

再来考察 $J_F(\omega)$ 的分母与 $\omega$ 的关系：

\begin{aligned} {\tilde{S}}_{i}^{2} & = \sum_{y \in Γ_{i}^{'}} (y - {\tilde{m}}_{i})^{2} \\ = \sum_{x \in Γ_{i}} (ω^{T} x - ω^{T} m_{i})^{2} \\ = ω^{T} [\sum_{x \in Γ_{i}} (x - m_{i}) (x - m_{i})^{T}] ω \\ = ω^{T} S_{i} ω \end{aligned}

$\begin{aligned} \tilde{S}_i^2 &= \sum_{y \in \Gamma_i'}(y - \tilde{m}_i)^2 \\ &= \sum_{x \in \Gamma_i}(\omega^Tx - \omega^Tm_i)^2 \\ &= \omega^T\left[\sum_{x \in \Gamma_i}(x - m_i)(x - m_i)^T\right]\omega \\ &= \omega^TS_i\omega \end{aligned}$

因此：

{\tilde{S}}_{1}^{2} + {\tilde{S}}_{2}^{2} = ω^{T} (S_{1} + S_{2}) ω = ω^{T} S_{ω} ω

$\tilde{S}_1^2 + \tilde{S}_2^2 = \omega^T(S_1 + S_2)\omega = \omega^TS_\omega\omega$

带到 $J_F(\omega)$

J_{F} (ω) = \frac{ω^{T} S_{b} ω}{ω^{T} S_{ω} ω}

$J_F(\omega) = \frac{\omega^TS_b\omega}{\omega^TS_\omega\omega}$

最佳变换向量 $\omega^*$ 的求取

首先使分母为非零常数：

ω^{T} S_{ω} ω = c \neq 0

$\omega^TS_\omega\omega = c \neq 0$

定义拉格朗日函数为：

L (ω, λ) = ω^{T} S_{b} ω - λ (ω^{T} S_{ω} ω)

$L(\omega,\lambda) = \omega^TS_b\omega - \lambda(\omega^TS_\omega\omega)$

上式对 $\omega$ 求偏导数：

\frac{\partial L (ω, λ)}{\partial ω} = 2 (S_{b} ω - λ S_{ω} ω)

$\frac{\partial L(\omega,\lambda)}{\partial \omega} = 2(S_b\omega - \lambda S_\omega\omega)$

令偏导数为0：

S_{b} ω^{*} - λ S_{ω} ω^{*} = 0

$S_b\omega^* - \lambda S_\omega\omega^* = 0$

也就是：

S_{b} ω^{*} = λ S_{ω} ω^{*}

$S_b\omega^* = \lambda S_\omega\omega^*$

因为 $S_\omega$ 非奇异，将上式两边左乘 $S_\omega^{-1}$ :

S_{ω}^{- 1} S_{b} ω^{*} = λ ω^{*}

$S_\omega^{-1}S_b\omega^* = \lambda\omega^*$

上式为求一般矩阵 $S_\omega^{-1}S_b$ 的特征值问题， $S_b = (m_1 - m_2)(m_1 - m_2)^T$

S_{b} ω^{*} = (m_{1} - m_{2}) (m_{1} - m_{2})^{T} ω^{*} = (m_{1} - m_{2}) R

$S_b\omega^* = (m_1 - m_2)(m_1 - m_2)^T\omega^* = (m_1 - m_2)R$

其中 $R = (m_1 - m_2)^T\omega^*$ 是一个标量，所以 $S_b\omega^*$ 总是在向量 $(m_1 - m_2)$ 的方向上，因此：

λ ω^{*} = S_{ω}^{- 1} (S_{b} ω^{*}) = S_{ω}^{- 1} (m_{1} - m_{2}) R

$\lambda\omega^* = S_\omega^{-1}(S_b\omega^*) = S^{-1}_\omega(m_1 - m_2)R$

得到：

ω^{*} = \frac{R}{λ} S_{ω}^{- 1} (m_{1} - m_{2})

$\omega^* = \frac{R}{\lambda}S^{-1}_\omega(m_1 - m_2)$

省略比例因子 $\frac{R}{\lambda}$ 有：

ω^{*} = S_{ω}^{- 1} (m_{1} - m_{2})

$\omega^* = S^{-1}_\omega(m_1 - m_2)$

posted @ 2022-09-24 21:11 eryo 阅读(156) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 模式识别学习笔记-lecture2-统计判别2

· 模式识别学习笔记-lecture3-判别函数2

· 模式识别笔记

· PRML-4.1 判别函数

· [模式识别复习笔记] 第3章线性判别函数

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期（2025年3.1-3.9）
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异

公告

昵称： eryo
园龄： 5年11个月
粉丝： 0
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

模式识别学习笔记-lecture3-判别函数1

线性判别函数

用判别函数分类的概念

两类问题的判别函数

n维线性判别函数的一般形式

广义线性判别函数

f_i(x)选用二次多项式函数

f_i(x)为 $r$ 次多项式函数

分段线性判别函数

模式空间和权空间

Fisher线性判别

Fisher准则函数中的基本参量

Fisher准则函数

最佳变换向量 $\omega^*$ 的求取

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

模式识别学习笔记-lecture3-判别函数1

线性判别函数

用判别函数分类的概念

两类问题的判别函数

n维线性判别函数的一般形式

广义线性判别函数

fi(x)选用二次多项式函数

fi(x)为rrr次多项式函数

分段线性判别函数

模式空间和权空间

Fisher线性判别

Fisher准则函数中的基本参量

Fisher准则函数

最佳变换向量ω∗ω∗\omega^*的求取

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

f_i(x)选用二次多项式函数

f_i(x)为 $r$ 次多项式函数

最佳变换向量 $\omega^*$ 的求取