LDA和FLD(Fisher linear discriminant)在统计中都是用来寻找特征的某种线性组合,该组合变量可以作为分类的依据,也可以用于数据集的将维处理,为进一步的分类作准备。
LDA与方差分析 ANOVA及回归分析都是用其他特征或测量值的线性组合来表达一个因变量。不同的是,LDA中涉及的因变量是“分类变量”(如类标号),而后两者都是指具体的数值。
LDA、主元分析( principal component analysis)和因子分析( factor analysis )都致力于用变量的线性组合来解释数据。但是 LDA 更侧重于对不同类数据之间的差别进行建模,而 PCA 却没有考虑类之间的区别,相比于相似性来说,因子分析考虑更多的是类间区别。判据分析(Discriminant analysis)和因子分析有一点是明显不同的:独立变量和因变量必须严格区分。
LDA在处理类属变量时可以由Discriminant Correspondence Analysis 来替代。
设观测向量x (也被称作特征、属性、变量、测量值等) 对于对象或事件的每一个采样的所属类y都是已知的。这样的样本集称作训练集。所谓的分类问题就是指对于相同分布的样本x(可以是训练集以外的样本),都能预知其所属的类。
假设条件概率密度函数 和都是正态分布的,具有相同的满秩协方差矩阵Σy = 0 = Σy = 1 = Σ
于是, 依赖于点积 ,其中
也就是说,输入x 所属的类就完全由已知观测值所决定的这样一
也就是说,输入x 所属的类就完全由已知观测值所决定的这样一个线性函数决定。
Fisher线性判别
FLD和LDA在实际应用中往往是可以互换的,尽管Fisher的最初的文章《The Use of Multiple Measures in Taxonomic Problems》 (1936) 和LDA略微有些差别:没有做出类的正态分布和相同的协方差矩阵这样的假设。
假设两类观测值的均值为 ,协方差矩阵为Σy = 0,Σy = 1。那么特征的线性组合 的均值就是 ,而方差为 ,其中i = 0,1。Fisher定义了这样一个表达可分性的比值,由类间方差比上类内方差得到:
?/P>
这种度量和信噪比是类似的。当最大可分时满足:
- 当满足LDA的假设条件时,上式和LDA是等价的。
实际应用
在应用中,各类的均值和方差是未知的。但是这些都是可以通过训练集估计求得。采用最大似然估计或最大后验概率准则,用估计值来取代前面等式中的真实值。尽管协方差的估计是在某种意义下最优的,但并意味着其所有可能的取值都能得到最佳的分类效果,即使正态分布的假设是成立的。
LDA和Fisher判别法在实际应用的过程中,实际处理的观测变量超过样本的数目。在这种情况下,协方差阵是奇异的,不能直接求逆。当然,有许多方法可以解决这个问题。
1、 广义逆矩阵
2、 正则判别分析,即在现有样本的基础上,通过增加白噪声的方法构造新的样本,这些新的样本并没有真正意义上的参加计算,在数学上可以得到协方差阵:
Cnew = C + σ2I
其中I为单位阵,σ 是所加噪声的标准差,并被称作是正则参数。选择合适的σ使得训练集成为最佳的交互证实集。获得的新的方差矩阵是可逆的,可以用来代替上式中的方差矩阵。
同样,在许多的应用场合中,LDA并不太适用。LDA和Fisher判别法可以通过核函数扩展为非线性分类的情形。通常是将原始观测变量映射到更高维的非线性空间。非线性空间的线性分类和线性空间的非线性分类是等价的。一个典型的例子就是Fisher核判别法。
LDA可以扩展为多类判别方法,其中c是类属变量,可以取N个值,而不是两个。类似的,条件密度函数是正态的,具有相同的方差。的N个投影值对而言,是一个充分统计量,是由N个均值生成的子空间,方差矩阵的逆矩阵的仿射投影。这些投影的求解可以看作是广义特征值的求解问题。其中分子是各个类的方差矩阵,分母是所有类共有的方差矩阵。
(译自http://www.answers.com/topic/linear-discriminant-analysis)
转自http://blog.sina.com.cn/s/blog_4388babc010007jb.html