模式识别学习笔记-lecture3-判别函数1

线性判别函数

模式识别系统的主要作用:判别各个模式(样本)所属的类别

用判别函数分类的概念

判别函数进行分类依赖的因素:

  • 判别函数的几何性质:线性的和非线性的函数
  • 判别函数的系数

两类问题的判别函数

x是二维模式样本x=(x1,x2)T,用x1,x2作为坐标分量,可以画出模式的平面图,若这些分属于ω1,ω2两类的模式可以用一个直线方程d(x)=0来划分:

d(x)=ω1x1+ω2x2+ω3=0

其中x1,x2为坐标分量,ω1,ω2,ω3为参数方程,则将一个不知类别的模式代入d(x),有:

d(x){>0xω1<0xω2

此时d(x)=0称为判别函数。

n维线性判别函数的一般形式

d(x)=ω1x1+ω2x2++ωnxn+ωn+1=ω0Tx+ωn+1

其中ω0=(ω1,ω2,,ωn)T称为权向量或参数向量x=(x1,x2,,xn)Td(x)还可以表示为:

d(x)=ωTx

其中x=(x1,x2,,xn,1)T称为增广模式向量ω=(ω1,ω2,,ωn+1)T称为增广权向量

  • 两类情况判别函数:

d(x)=ωTx{>0xω10xω2

  • 第一种多类情况:
    用线性判别函数将属于ωi类的模式与不属于ωi类的模式分开,其判别函数为:

di(x)=ωiTx={>0xωi0xωi,i=1,2,,M

一个区域明确属于某一类的条件是除了这一类的判别函数的值大于0,其他判别函数的值均小于等于0,否则该区域为不确定区域

  • 第二种多类情况:
    采用每对划分,即ωi/ωj两分法,一个判别界面只能分开两种类别,其判别函数为:

dij(x)=ωijTx

如果dij>0,ji,那么xωi
有一个性质dij=dji;
要分开M类模式,共需要M(M1)/2个判别函数;
不确定区域:若所有dij(x),找不到ji,dij(x)>0的情况;

  • 第三种多类情况:
    第二种多类情况的特例,是没有不确定区域的ωi/ωj两分法,此时对M类情况有M个判别函数

dk(x)=ωkTx,k=1,2,,M

di(x)>dj(x),ji,i,j=1,2,,M那么xωi,将分类的特点是将M类情况分为M1个两类问题

广义线性判别函数

一个训练用的模式集{x},在模式集空间x中线性不可分,但在模式空间x中线性可分,其中x的各个分量是x的单值实函数,x的维数k高于x的维数n,即若取

x=(f1(x),f2(x),,fk(x)),k>n

则分类界面在x中是线性的,在x中是非线性的,此时只要将模式x进行非线性变换,使之变换后得到维数更高的模式x,就可以用线性判别函数来进行分类
一个非线性判别函数可如下表示:

d(x)=ω1f1(x)+ω2f2(x)++ωkfk(x)+ωk+1

其中{fi(x),i=1,2,,k}是模式x的单值实函数,若定义为广义形式:

x=(f1(x),f2(x),,fk(x),1)T

此时有:

d(x)=ωTx

其中ω=(ω1,ω2,,ωk,ωk+1)

fi(x)选用二次多项式函数

  • x是二维的情况,即x=(x1 x2)T,判别函数为:

d(x)=ω11x12+ω12x1x2+ω22x22+ω1x1+ω2x2+ω3

线性化为d(x)=ωTx

x=(x12x1x2x22x1x21)Tω=(ω11ω12ω22ω1ω2ω3)T

此时x的维数为5,原维数为2

  • xn维的情况,判别函数为:

d(x)=j=1nωjjxj2+j=1n1k=j+1nωjkxjxk+j=1nωjxj+ωn+1

其中有平方项n个,二次项n(n1)/2个,一次项n个,常数项1个,总项数为:

n+n(n+1)/2+n+1=(n+1)(n+2)/2>n

x的各分量的一般化形式为:

fi(x)=xp1sxp2t,p1,p2=1,2,,n,s,t=0,1

fi(x)为r次多项式函数

  • xn维模式:

fi(x)=xp1s1xp2s2xprsr,p1,p2,,pr=1,2,,n,s1,s2,,sr=0,1

判别函数d(x)可以用以下递推式给出:
常数项:d(0)(x)=ωn+1
一次项:d(1)(x)=p1=1nωp1xp1+d(0)(x)
二次项:d(2)(x)=p1=1np2=p1nωp1p2xp1xp2+d(1)(x)
r次项:d(r)(x)=p1=1np2=p1npr=pr1nωp1p2prxp1xp2xpr+d(r1)(x)
d(x)总项数为:

Nω=Cn+rr=(n+r)!r!n!

分段线性判别函数

分段线性判别函数的设计:最小距离分类
μ1μ2为两个模式类ω1ω2的聚类中心,定义决策规则:

||xμ1||2||xμ2||2{<0xω1>0xω2

这时的决策面是两类期望连线的垂直平分面,这样的分类器称为最小距离分类器

模式空间和权空间

设有判别函数:d(x)=ωTx,其中x=(x1 x2   xn 1)T,ω=(ω1 ω2  ωn ωn+1)T,判别界面为ωTx=0

Fisher线性判别

目的:在低维空间里解析上或计算上行得通的方法,在高维空间里往往行不通,降低维数有时就会成为处理实际问题的关键,考虑将d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维,我们需要根据实际情况找到一条最易分类的投影线,这就是Fisher判别方法要解决的基本问题
d维空间到一维空间的一般数学变换方法:假设有一集合Γ包含Nd维样本x1,x2,,xN,其中N1个属于ω1类的样本记为子集Γ1,N2个属于ω2类的样本记为子集Γ2,若对xn的分量做线性组合可得标量:

yn=ωTxn,n=1,2,,N

这样得到N个一维样本yn组成的集合,并可分为两个子集Γ1,Γ2,实际上,ω的值是无关紧要的,重要的是ω的方向,方向直接影响分类效果,我们希望投影以后,在一维Y空间中各类样本尽可能分得开些,即希望两类均值之差越大越好,同时希望各类样本内部尽量密集,即希望样本类内离散度越小越好

Fisher准则函数中的基本参量

dX空间

  • 各类样本的均值向量mi

mi=1NixΓix,i=1,2

  • 样本类内离散度矩阵Si和总样本类内离散度矩阵Sω

Si=xΓi(xmi)(xmi)T,i=1,2Sω=S1+S2

  • 样本类间离散度矩阵Sb

Sb=(m1m2)(m1m2)T

Sb是对称半正定矩阵
在一维Y空间

  • 各类样本的均值

m~i=1NiyΓiy,i=1,2

  • 样本类内离散度S~i2和总样本类内离散度S~ω

S~i2=yΓi(ym~i)2,i=1,2S~ω=S~12+S~22

Fisher准则函数

JF(ω)=(m~1m~2)2S~12+S~22

希望两类均值之差越大越好,同时希望各类样本内部尽量密集,即希望样本类内离散度越小越好,所以应该寻找使JF(ω)尽可能大的ω作为投影方向,下面需要将JF(ω)变为ω的显函数:
首先由各类样本的均值可推出:

m~i=1NiyΓiy=1NixΓiωTx=ωT(1NixΓix)=ωTmi

这样Fisher准则函数JF(ω)的分子可以写成:

(m~1m~2)2=(ωTm1ωTm2)2=(ωTm1ωTm2)(ωTm1ωTm2)T=(ωTm1ωTm2)(m1Tωm2Tω)=ωT(m1m2)(m1m2)Tω=ωTSbω

再来考察JF(ω)的分母与ω的关系:

S~i2=yΓi(ym~i)2=xΓi(ωTxωTmi)2=ωT[xΓi(xmi)(xmi)T]ω=ωTSiω

因此:

S~12+S~22=ωT(S1+S2)ω=ωTSωω

带到JF(ω)

JF(ω)=ωTSbωωTSωω

最佳变换向量ω的求取

首先使分母为非零常数:

ωTSωω=c0

定义拉格朗日函数为:

L(ω,λ)=ωTSbωλ(ωTSωω)

上式对ω求偏导数:

L(ω,λ)ω=2(SbωλSωω)

令偏导数为0:

SbωλSωω=0

也就是:

Sbω=λSωω

因为Sω非奇异,将上式两边左乘Sω1:

Sω1Sbω=λω

上式为求一般矩阵Sω1Sb的特征值问题,Sb=(m1m2)(m1m2)T

Sbω=(m1m2)(m1m2)Tω=(m1m2)R

其中R=(m1m2)Tω是一个标量,所以Sbω总是在向量(m1m2)的方向上,因此:

λω=Sω1(Sbω)=Sω1(m1m2)R

得到:

ω=RλSω1(m1m2)

省略比例因子Rλ有:

ω=Sω1(m1m2)

posted @   eryo  阅读(156)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
点击右上角即可分享
微信分享提示