Linear Discriminant Analysis Algorithm

线性判别分析算法。

逻辑回归是一种分类算法,传统上仅限于两类分类问题。

如果有两个以上的类,那么线性判别分析算法是首选的线性分类技术。LDA的表示非常直接。它包括数据的统计属性,为每个类计算。对于单个输入变量,这包括:

  • 每个类的平均值。
  • 在所有类中计算的方差。

通过计算每个类的判别值并对具有最大值的类进行预测,可以做出预测。

                                  

 

 基本计算方法:

 

 

该方法假定数据具有高斯分布(钟形曲线),因此,最好先从数据中删除异常值。这是一种简单而强大的分类预测建模问题的方法。

 

判别分析的典型例子是线性判别分析(Linear discriminant analysis),简称LDA。(这里注意不要和隐含狄利克雷分布(Latent Dirichlet allocation)弄混,虽然都叫LDA但说的不是一件事。)

LDA的核心思想是把高维的样本投射(project)到低维上,如果要分成两类,就投射到一维。要分三类就投射到二维平面上。这样的投射当然有很多种不同的方式,LDA投射的标准就是让同类的样本尽量靠近,而不同类的尽量分开。对于未来要预测的样本,用同样的方式投射之后就可以轻易地分辨类别了。

使用情景:

  • 判别分析适用于高维数据需要降维的情况,自带降维功能使得我们能方便地观察样本分布。它的正确性有数学公式可以证明,所以同样是很经得住推敲的方式。
  • 但是它的分类准确率往往不是很高,所以不是统计系的人就把它作为降维工具用吧。
  • 同时注意它是假定样本成正态分布的,所以那种同心圆形的数据就不要尝试了。

 

更多可以参考:https://www.cnblogs.com/pinard/p/6244265.html

posted @ 2018-05-11 13:59  Skye_Zhao  阅读(184)  评论(0编辑  收藏  举报