判别分析
1. 定义
距离判别问题的数学描述: 设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)G1,G2, …,Gk中的某一类,且它们的分布函数分别为F1(x),F2(x), …,Fk(x)。我们希望利用这些数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样p项指标(变量)数据的一个新样本,能判定这个样本归属于哪一类。
2. 分类
判别分析内容很丰富,方法很多。
- 按判别的总体数来区分,有两个总体判别分析和多总体判别分析;
- 按区分不同总体所用的数学模型来区分,有线性判别和非线性判别;
- 按判别时所处理的变量方法来区分,有逐步判别和序贯判别等;
- 按判别准则的不同来区分,有马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等。
下面介绍三类常用的判别分析方法:距离判别法、Fisher判别法、Bayes判别法。
3. 三类常见的判别分析方法
3.1 距离判别法
距离判别问题分为两个总体的距离判别问题和多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
- 两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是m1和m2,对于一个新的样品X,要判断它来自哪个总体。
n计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),并按照如下的判别规则进行判断
其等价描述为:求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;否则X属于G1。
判别函数
判别规则
- 多个总体的距离判别问题