案例说明
案例
以下两个维度比较在不同温度下冶炼的钢铁群体
Y1代表钢铁击穿点(yieldpoint)
Y2代表钢铁强度(ultimatestrength)
温度1
y1 |
y2 |
33 |
60 |
36 |
61 |
35 |
64 |
38 |
63 |
40 |
65 |
温度2
y1 |
y2 |
35 |
57 |
36 |
59 |
38 |
59 |
39 |
61 |
41 |
63 |
43 |
65 |
41 |
59 |

Fisher线性判别分析(Fisher's linear discriminant analysis,LDA)
假设
两个群体的均值向量(μ1≠μ2),但具有相同的协方差矩阵Σ
随机样本(历史数据)
第一个p维群体y11,...,y1n1
样本均值向量¯y1,样本容量n1,协方差矩阵Σn1
第二个p维群体y21,...,y2n2
样本均值向量¯y2,样本容量n2,协方差矩阵Σn2
思路
用来寻找两个群体间"最好"的线性判别法则,来最大限度地区分两个群体
目标 找到方向a,使得所有点,投影下来后,两个群体分的最开
投影就是做a和y1两个向量的內积,也就是¯Z1,然后两个投影相减d=¯Z1−¯Z2


这个d是欧式距离,但距离大不一定是分得开,所以用标准化距离
标准化就是要除以自己的方差
d=¯Z1−¯Z2=aT(¯y1−¯y2)
Cov(¯y1)=Σn1
Cov(¯y2)=Σn2
Cov(¯y1−¯y2)=Σ(1n1+1n2)
var(d)=(1n1+1n2)a′Σa
sd=√(1n1+1n2)a′Spla
Spl是指用样本(包括两分类样本都算)算出来的协方差矩阵,Σ是模型真实的协方差矩阵
标准化距离就是dsd,可正可负,所以一般处理平方(dsd)2
投影后标准化距离(平方)为
t2(a)={aT(¯y1−¯y2)}2(1n1+1n2)aTSpla
Fisher线性判别分析找a使得t2(a)最大
怎么求最大值
1.(1n1+1n2)是常数
2.利用柯西不等式
(aTb)2≤(aTa)(bTb);当且仅当a=b,內积的平方小于等于模长的平方的积
柯西不等式的变形
(aTb)2≤(aTWa)(bTW−1b)
或者(aTb)2aTWa≤bTW−1b;当且仅当a=W−1b
所以最大值时,a=S−1pl(¯y1−¯y2)
称为判别函数系数(Discriminantfunctioncoefficient)
z=aTy
称为Fisher判别函数(Fisher′sdiscriminantfunction)
回到原来的案例,看下计算结果


结尾
材料来自于b站,厦门大学多元统计分析
这里要求两分类样本的协方差矩阵是一样的,但实际也是可以不一样的,在PRML一书中 公式4.28
SW=∑n∈C1(xn−m1)(xn−m1)T+∑n∈C2(xn−m2)(xn−m2)T
就用的是两个协方差的加和操作
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)