模式识别期末复习
默认是列向量,所以 \(v\cdot v^T\) 是一个矩阵,如果 \(v^T \cdot v\) 则是一个数。
第二章、聚类分析
- 协方差矩阵:通常应该是指 \(cov(X,Y):=[cov(x_i,y_j)]_{n\times m}\),其中协方差也就是 \(E((x-\bar x)(y-\bar y))\),很自然地就可以写出 $$cov(X,Y)=E((X-\bar X)(Y-\bar Y)^T)$$
那么特别地,对一个变量来说,这里写 $$C=\frac{1}{N}\sum_{i=1}^N (X_i-M)(X_i-M)^T$$
这个东西叫方差应该更合适= = - 自相关矩阵,即相关系数的拓展:$$R=\frac{1}{N}\sum_{i=1}^N X_i X_i^T$$
- 很自然地有 $$C=\frac{1}{N} \sum_{i=1}^N X_i X_i^T-M X_i ^T-MX_i ^T + MM^T =R-2MM^T +MM^T =R-MM^T$$
即\(C=R-MM^T\). - 马氏距离: \(d^2(x,y)=(x-y) C_{x,y} (x-y)^T\)
- 相关系数 $$r=\frac{(x-\bar x)(y-\bar y)}{\sqrt{ D_X D_Y}}$$
- 匹配测度(这个还没看)
第三章、特征选择与提取
补充:分类器
- MED:最小欧氏距离分类器
- MICD:最小类间距离分类器,常用马氏距离
对特征的要求
- 可分性(信息量大)、可靠性强(不能是模棱两可的)、独立性(不要有重复、相关)、尽量少
- 特征选择vs特征提取
3.2 类别可分性测度——衡量类别间可分性的尺度
- 类内(within)距离 : \(\bar{D^2 } =E[(X_i-X_j)^2 ]=2tr(C)=2\sum_k \sigma_k^2\),其中 \(C\) 是协方差矩阵,\(\sigma\) 则是取遍每个分量。
- 类内散布矩阵:就是协方差矩阵 \(C=\frac{1}{N}\sum (X_i-M)(X_i-M)^T\).
- 类间距离:$$\bar{D_b^2 }=\sum_{i=1}^c P(\omega_i) (M_i-M)^T (M_i-M)$$
- 类间(between)散布矩阵(Scatter Matrix):\(S_b\),把转置换个位置,有 \(\bar{D_b^2}=tr(S_b)\).
两种特征提取方法
1、类内散布矩阵(单类模式提取)
特点:压缩维数,类内距离减小,样本更密集
过程:1、协方差矩阵 \(C=\frac{1}{N}\sum X_i X_i^T-MM^T\)。2、求特征值,找到前 \(m\) 小的特征(一定非负)。3、得到对应的特征向量。4、归一化,得到一个将 \(n\) 维空间映射为 \(m\) 维的矩阵,作用在每个样本上。
性质:\(C\) 实对称矩阵,因此必然有 \(n\) 个非负特征值;并且特征向量两两正交。
变换后分量的方差=特征值,相当于丢掉了大方差,类内距离保持不变(因为变换矩阵归一化)
2、KL变换
特点:1、最小均方差(MSE,Mean Square Error)。2、使用任意概率密度。3、消除特征之间相关性。
过程:1、算自相关矩阵 \(R=\frac{1}{N}\sum X_iX_i^T\)。2、求特征值,找前 \(d\) 大的特征。3、得到特征向量。4、特征向量归一化,构建变换矩阵。5、样本映射。
优点:1、最小均方误差。2、大特征,突出模式类的差异。3、消除相关性
缺点:1、多类问题效果不好。2、需要足够多样本。3、计算困难
3.5流形学习
测地距离、等距映射ISOMAP,
3.6 特征选择
最优搜索:分支定界算法
次优搜索
信息熵
4、判别函数&几何分类
问题:给了很多个模式,如何分类?
判别函数/判决函数:用来对模式进行分类的准则函数 \(d(X)\),关于判别函数:
- 几何性质:线性、非线性,一些问题可能不是线性可分的
- 系数、维数、正负
- 对于线性判决函数,\(d(X)=W^T X+w_{n+1}\),这里 \(W\) 一般叫权向量
4.3 线性判别函数
二分类:\(D(X)>0,<0\),特别\(=0\) 不可判别(IR)
多类情况:
- \(w_i/\bar{w_i}\) 两分法(属于 \(i\) 的和不属于 \(i\) 的,对每个类做一个判决函数,如果有多个 \(>0\) 或者都 \(<0\) 则不可分)
- \(w_i/w_j\) 两分法(做一个满足 \(d_{ij}=-d_{ji}\) 的判决函数,\(d_{ij}>0\) 表示属于 \(i\) 类)
- \(w_i/w_j\) 两分法特例:取 \(d_{ij}=d_i-d_j\),这样只要 \(n\) 个判决函数,分类情况就是 \(d_i(X)=\max_j d_j(X)\),则 \(X\in w_i\),判决界面是一个像胞腔的东西
- 对比: 第二种需要多个判决函数,但对于线性可分的可能性更大。
4.4 广义线性判别函数
换元
4.5 线性判别函数的几何性质
设 \(r\) 是点到平面 \(W^T X+b=0\) 的距离,则 \(d(X)=r\cdot ||W||\),特别地原点 \(d(O)=b=r_0\cdot ||W||\),那么原点到直线的距离就是 $$r_O=b/||W_0||$$
很符合我们的认识
结论:判决函数正比于点到超平面的距离。
权空间
\(d(X)=W^TX+b\) ,系数叫权系数,系数构成的叫权空间。
规范化增广
规范化:对于二分类来说,不属于的 \(X\) 全部乘 \(-1\),这样保证 \(d(X)>0\) 对所有样本恒成立。
增广:因为有个常数 \(b\),把 \(X\) 增广为 \([X|1]\) 的样子。
二分法
随便给 \(N\) 个点的 \(n\) 维模式,能否正确用一个超平面进行二分类?
4.6 权向量求解
4.6.1感知器
二分类:先规范化增广,对训练样本迭代:如果 \(W^T(k) X_i\leq 0\),意味着分类失败,矫正 \(W(k+1)=W(k)+c\cdot X_i\),如果正确则 \(W(k+1)=W(k)\),跑完所有样本,如果都正确则结束,否则继续迭代。
结论:只要线性可分,就是收敛的
应用于多分类:
- 使用 \(w_i/w_j\) 两分类的特例,对 \(M\) 类模式用 \(M\) 个判决函数。
- 只增广,不需要规范化
- 每次迭代,对每个模式,计算所有判决函数,如果 \(d_i(k)\leq d_l(k)\) (对某个样本 \(X\) 而言分类失败了):
- \(W_i(k+1)=W_i(k)+c\cdot X\)
- \(W_l(k+1)=W_l(k)-c\cdot X\)(对所有错误的 \(l\) )
- 其他不变
- 收敛
4.6.2 梯度算法
定一个准则函数 \(J(W,X)\)。
1、规范化增广,设置 \(W(1)\).
2、对训练样本,\(W(K+1)=W(k)-c\cdot \nabla J\),到收敛结束。
不一定收敛,\(c\) 参数的选择会影响结果
4.6.2.* 对梯度算法的修正——固定增量法
准则函数 \(J(W,X)=\frac{1}{2}(|W^TX|-W^T X)\),可以遇见 \(W^T X>0\) 时,\(J=0\)。
求导:$$\nabla J=\frac{1}{2}[X\cdot sign(W^T X)-X]$$
那么很明显,\(W^TX>0\) 时,正确分类 \(W(k+1)=W(k)\),否则\(W(k+1)=W(k)-c(-X)=W(k)+cX\)
结论:感知器是固定增量法(梯度法)的特例。
4.6.3 最小平方误差 LMSE
特点:可分模式收敛,不可分的情况也能跑(能够判断出来是不可分的),同时利用 \(N\) 个样本,收敛更快。计算伪逆比较复杂,这一步可以用一些数值办法。
思路:考虑二分类,规范化增广,假设规范化增广后的样本是一个 \(N\times (n+1)\) 的矩阵 \(X\)(N个样本,\(n\) 个属性,1个增广的\(\pm 1\)),要求权向量 \(W\),限制就是 \(XW>0\),改成考虑某个正的向量 \(b\),求解 \(XW=b\) ,当然由于通常样本个数很大, \(N>>(n+1)\),因此通常方程是无解的,但是可以求最小二乘近似解
即使得 $$J(W,X,B)=\frac{1}{2}||XW-b||2=\frac{1}{2}\sum_{i=1}N (W^T X_i-b_i)^2$$最小
思路:对 \(W,B\) 求偏导,梯度下降,对 \(W\) 求偏导,得到 \(W=(X^T X)^{-1} X^T B\),其中 \((X^T X)^{-1} X^T=X^{\#}\) 叫做矩阵的伪逆,误差 \(e(k)=XW(k)-B(k)\)。
可分性:模式线性可分,且系数 \(0<c\leq 1\) 时算法收敛,可以求解 \(W\),误差 \(e(k)<0\) 代表无解(有分量非正)
4.7 非线性判别函数
4.8 Fisher线性判别
考虑二分类问题,将样本投影到一个一维空间上,这样就可以用一个简单的阈值来分类。
假设映射到 \(w\) 直线,投影为 \(w^T\mu\),类间距离是 \(||w^T(\mu_0-\mu_1)||^2=w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^T w=w^T S_B w\) ,而类内散布矩阵(衡量方差):\(\Sigma_0=\frac{1}{|w_0|}\sum (x_i-\mu_i)(x_i-\mu_i)^T\) ,对 \(\Sigma_1\) 同理,再加权平均,得到 \(S_w\),投影后的方差变为 \(wS_w w\),目标是最大化类间距离,最小化类内距离,Fisher方法给出的是最大化如下函数:$$w=argmax_w\frac{wTS_Bw}{wTS_ww}$$
考虑强制让分母为 \(1\),拉格朗日乘数法,\(L(w)=w^T S_B w-\lambda(w^T S_w w-1)\),对 \(w\) 求偏导,注意 \(S_B,S_w\) 都是对称矩阵,得到 $$\frac{\partial L}{\partial w}=2S_Bw-2\lambda S_w w=0$$
得到 \(S_B w=\lambda S_w w\),注意 \(S_B w\) 是一个向量,和 \(\mu_0-\mu_1\) 同方向,不妨让这个比例恰为 \(\lambda\),得到 \(S_w w=\mu_0-\mu_1\),即 $$w=S_w^{-1} (\mu_0-\mu_1)$$
4.9 支持向量机SVM
应用举例:手写数字识别、性别识别
SVM的标准:最大边缘超平面(MMH,maximum margin hyperplane)
分类面 \(wx+b=0\) 的两个边缘 \(wx+b=\pm 1\),距离是 \(2/|w|\)
支持向量:距离超平面最近的几个样本
特点:训练时间长,复杂的非线性决策边界精度高。
创新:二次规划、指出了二分类的关键是支持向量。
训练出SVM后,分类器的复杂性也只和支持向量(个数)有关, 独立于数据维数,
补充:SVM求解非线性问题
- 原空间
- 特征空间:如xor问题,做映射,这个通常是低维到高维。
- 核函数:
- 假设特征映射 \(\phi\),直接计算特征函数可能困难,注意到SVM的求解只需要用到其内积,定义 核函数\(\kappa(x,y)=\phi(x)^T \phi(y)\) ,如果能直接确定核函数的形式,就可以避免特征计算。
- 结论:空间 \(X\) 上的某个二元对称函数是核函数,当且仅当其构成的矩阵是半正定的。
- 性质:核函数对加法、乘法、数乘封闭,也可以直接用特征函数相乘。
- 美好期望:核函数要能够反应样本距离,是否同类
- 核技巧:计算变成向量点乘。
补充:核函数的应用——KPCA
传统PCA:
1、中心化
2、协方差矩阵 \(C=XX^T\),这是个实对称矩阵,
3、算协方差矩阵的特征向量,找特征值最大的
KPCA:处理非线性的分布、去噪
第六章、基于统计决策的概率分类
先验概率:根据以前知识(统计等)得到的样本 \(w_i\) 出现概率 \(P(w_i)\)
后验概率:收到一批样本 \(X\) 后,推断 \(w_i\) 出现的概率 \(P(w_i|X)\).
条件概率:已知类型,推断某事件的概率 \(P(X|w_i)\).
模式识别中,通常是知道样本 \(X\),要做分类,因此常用后验概率
6.2 贝叶斯决策
6.2.1.最小错误率贝叶斯决策
看 \(P(w_i|X)\) 最大的是哪个, $$P(w_i|X)=\frac{P(X|w_i)P(w_i)}{P(X)}$$
不管分到哪一类,分母相同,因此只看分子,属于哪一类,以及每个类中有某个元素的概率都可以通过统计得到。
分类规则:选择后验概率最大的
特别地,对于两类问题:比较 $$P(X|w_i)P(w_i)>P(X|w_j)P(w_j)$$
化成 $$l_{ij}(X)\equiv\frac{P(X|w_i)}{P(X|w_j)}>\frac{P(w_j)}{P(w_i)}$$
这个 \(l_{ij}\) 一般就叫似然比
6.2.2.最小风险贝叶斯决策
疾病、火灾之类的问题,如果出现了但没检测到,可能是影响很大的。
对每个样本 \(X\),如果将其分为了 \(w_i\) 这一类,会产生的损失/代价定义为条件平均风险:$$r_i(X)=\sum_{j=1}^C L_{ij}(X) P(w_j|X)$$
这里 \(L_{ij}\) 表示将本来是 \(w_j\) 类的样本分到了 \(w_i\) 类,产生的代价是多少。如果是正确分类,\(L\)应该是0或者负数(意味着有收益),否则如果错误分类, \(L\) 应当是个正数。
分类办法就是找 \(r_i\) 最小的 \(i\).
(0-1) 损失最小风险贝叶斯:L是单位阵的情况,退化成为最小错误率贝叶斯决策
6.2.3 正态分布的贝叶斯决策
继续考察最小错误率的贝叶斯,其判别函数是 \(P(X|w_i)P(w_i)\),这里代入正态密度,取对数,再抹除掉不影响判别的 \(2\pi\) 常数,得到判决规则:
二分类:判决边界是一个超曲面,特别地如果 \(C_1=C_2\),边界是直线,更特别地,如果 \(C_1=C_2=I\),\(P=1/2\),那么是两个正圆的交点所在直线。
错误率
在分类问题中,贝叶斯错误率是一个分类器对某个类别所能达到的最低的分类错误率。
这里 \(P_1(e)=\int_{R_2} P(X|w_1)dX\)
结论:最小错误率贝叶斯决策的错误率,反比于类间的马氏距离。
错误率估计
- 设计好的分类器:
- 先验概率未知——随机抽样
- 先验概率已知,决定抽取几个样本 \(N_i=P(w_i) N\),假设每个类有 \(k_i\) 个被错分类的样本,则可以给出概率 \(P(e_i)=\binom{N_i}{k_i}e^{k_i}(1-e)^{N_i-k_i}\),求所有 \(P(e_i)\) 的联合概率,再用极大似然估计求 \(e\)
- 未设计好分类器:
- 需要设计分类器,再估计性能
- 1、样本划分法:分两组,一组设计分类器,另一组用来检测。不同取法算错误率取平均。缺点:需要很大样本
- 2、留一法:样本划分法中 \(N-1\) 个设计分类器,\(1\) 个检验,对每个样本共重复 \(N\) 次。缺点:计算大。
6.4 聂耳-皮尔逊决策
假设 \(P_2(e)\) 常数,确定分类的边界,使得 \(P_1(e)\) 最小,达到 \(P(e)\) 最小