数理统计初步---从协方差到PCA算法步骤详解

名字解析：

样本：比如我们想要测量全国人的平均身高。但是我们无法收集到全国所有人的身高数据，所以我们从全国随机抽取n个人进行测量。这n个人就称为样本。样本是全国人口的一个子集。

参数：我们需要测量的身高数据就是参数。

有一些值可以表示样本参数的特征。

均值：

表示样本的平均特征。但是无法表示样本之间的差异，所以就有了。

方差：

以及

标准差：

协方差用于表示两个样本参数之间的相似度

协方差：

。从公式上来看，协方差的结果是先求"参数x”与"参数x的均值"之间的之间的差，以及"参数y"和"参数y的均值"之间的差，表达了两个参数xy之间的差异程度。

协方差矩阵：若观测的一个系统有3个参数xyz，而协方差只能计算两个参数之间的差异程度，可以用协方差矩阵来表达参数两两之间的差异程度。

特征值与特征向量相关

向量与矩阵：向量表示空间中的一个点，向量也可以看做从原点出发的一个矢量。矩阵是一个变换，当矩阵*向量时，矩阵可以看做将空间中的一个点变换到另外一个位置。多个参数排列在一起也可以看做一个向量。

特征向量特征值：

如图所示，当矩阵（变换）作用于一个特征向量是，只是将向量（空间中的矢量）的长度拉伸而已，而方向并没有改变。特征值表示特征向量拉伸的比例

PCA（主成分分析）

PCA是主成分分析。例如对于一个未知的系统，我们假设它有n个参数。我们想要求出那些参数最重要，而把不重要的参数给抹掉，从而降低参数向量的维数。PCA的问题其实是一个基的变换，使得变换后的数据有着最大的方差。

1.假设有2个参数xy，我们通过观察n次，已经得到了n个xy的值。

2.求出xy的协方差矩阵COVMatrix

3.求出COVMatrix的特征向量eigenvectors以及特征值eigenvalues

4.若特征值大，则说明参数空间中的点更接近该特征值对应的特征向量。如图3.2

5.将所求出的特征向量组合成特征向量矩阵如上图。

6.用特征向量矩阵的转置左乘原始参数矩阵的转置 = （原始数据在以特征向量为基的坐标系下的坐标）。如上图，这个finaldata就是pca后的数据。如果对坐标在各种坐标下的转换有疑问，请看我的另一篇博文 http://www.cnblogs.com/tclikang/archive/2012/12/05/2803506.html。

7.若FeatureVector不是全部的特征向量，则成为主成分，省去的其余成分都是非主要成分.

PCA背后的思想：

如图所示：上面三幅图中每个点的位置都有两个参数r1和r2，想要记录下点的值就必须知道两个参数。而最右边的图r1和r2有明显的关系，当知道r1的时候，就可以利用公式得出r2的值，也就是说在最右边的图中，我们只需要知道一个参数r1就能够确定点的位置了，这就是参数降维。这就是PCA背后的思想。在该例中，我们的母的就是使用PCA可以找出这个最能拟合所有点的直线。

posted on 2012-11-26 21:30 SuperBug 阅读(8754) 评论(0) 编辑收藏举报

刷新页面返回顶部

SuperBug

公告