一.判别分析和分类分析
例子
贷款人申请贷款,要评估是否能够成功偿还贷款
二.区别
判别分析-寻找判别规则,利用判别函数来描述-主要是区分不同的群体-找规律
分类分析-给出分类结果-预测新对象的类别,找到最优可能属于的类别-贴标签
目标通常都是分类
两群体Fisher线性判别分析
目标寻找最合适的平面,将样本投影到上面,使得组内间距最小,组间间距最大
假设
两个群体的均值向量μ1≠μ2,但具有相同的协方差矩阵Σ
随机样本
第一个p维群体y11,...,y1n的样本均值向量¯y1则协方差矩阵为Σ/n1
第二个p维群体y21,...,y2n的样本均值向量¯y2则协方差矩阵为Σ/n2
Fisher 线性判别分析
用来寻找两个群体间“最好”的线性判别法则,来最大限度地区分两个群体
找到¯y1,¯y2,投影到平面a上,就是和平面a做內积,然后找到¯Z1,¯Z2

不看欧式距离,会受到量纲影响
Fisher线性判别分析寻找一个投影方向a,使得两均值向量投影之后¯Z1=a′¯y1和¯Z2=a′¯y2的"标准化距离"最大
"标准化距离"怎么算?
推演
d=¯Z1−¯Z2=aT(¯y1−¯y2)
Cov(¯y1)=Σ/n1
Cov(¯y2)=Σ/n2
Cov(¯y1)−¯y2)=Σ(1n1+1n2),注意!等号后面是加号,虽然前面Cov里面是−号
var(d)=(1n1+1n2),aTΣa
标准差sd=√(1n1+1n2),aTSpla,这里实际的Σ没法求,用样本的Spl表示
最后结论:不用d判断距离,而用d/sd,然后可能有负号,所以一般求平方(d/sd)2
即
t2(a)=(aT(¯y1−¯y2))2(1/n1+1/n2)aTSpla
Fisher线性判别分析寻找a,使得t2(a)最大
上面是內积,下是是二次型形式
有点像柯西不等式
(aTb)2≤(aTa)(bTb),等号当且仅当a=b成立
柯西不等式变形
(aTa)≤(aTWa)(bTWb),或者
(aTb)2aTWa≤bTW−1b,等号成立当且仅当a=W−1b
变形公式通过令a=W−12a,b=W−12b推导得到
观察两组公式
t2(a)=(aT(¯y1−¯y2))2(1/n1+1/n2)aTSpla
(aTb)2aTWa≤bTW−1b
可以直观看出
抛开(1/n1+1/n2)这个常数项,两个公式是等价的,那么t2(a)取到最大值的时候就是变形公式当且仅当条件成立的时候
即
a=S−1pl(¯y1−¯y2)
称为判别函数系数
z=aTy
称为Fisher判别函数
多群体Fisher线性判别分析
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)