多维数据处理之主成分分析(PCA)

在灵巧手与假手理论中，为了研究人手的运动协同关系，需要采集各个关节的运动学量或者多个采集点的肌电信号，然而由于人手关节数目或者EMG采集点数量较多，加上多次采样，导致需要过多的数据需要处理。然而事实上，这些数据存在相关性，换一种说法就是人手的某一运动被这些数据重复表达了，为了简化数据维度并尽可能的表征原始数据的特征，引入我们今天的主题-主成分分析(PCA)

Ⅰ. 主成分分析(PCA)

主成分分析是一种处理过多维度数据的线性方法，该方法采用组合特征的方法来降维。从本质上来讲就是把高维的数据投影到低维空间中。这里又引出另一种线性分析方法-多重判别分析(MDA)，其与主成分分析均是在最小均方意义下的处理方法，区别在于前者目的是尽量区别开来各类数据，而主成分分析则是寻找最能代表原始数据的方法。

Ⅱ. 推导

首先考虑将n个d维的样本(X₁,X_2,...Xn)投影到1维的情况。为了方便后面的推导，定义一个d维的向量X₀，为了使得X₀能够最好的代表这n个样本，我们用均方误差来衡量这个"最好"的程度，定义平方误差准则函数J₀(X₀)如下：

$J_0(X_0)=\sum_{k=1}^n||X_0-X_k||^2 \tag{1}$

易证明得，X₀等于样本均值m时平方误差J₀(X₀)达到最小值，其中样本均值m为：

$m=\frac{1}{n}\sum_{k=1}^nX_k \tag{2}$

证明如下：

$J_0(X_0)=\sum_{k=1}^n||(X_0-m)-(X_k-m)||^2=\sum_{k=1}^n||X_0-m||^2-2(X_0-m)^T\sum_{k=1}^n(X_k-m)+\sum_{k=1}^n||X_k-m||^2 \tag{3}$

上式中第二项为0，第三项是与X₀无关的常数，故X₀等于m时，平方误差最小，得证。

得到样本均值后，样本均值可以理解为样本数据集的零维表达，为了得到能够表达全部数据的一维数据(一个数)，我们定义一个单位向量e，该向量位于一条通过样本均值点的直线上，其它数据点X₁,X_2,...Xn可以表示为：

$X=m+ae \tag{4}$

上式(4)中，a为向量对应与基于基底e的系数，被成为主成分(principal component)，由此，对于每一个原本为d维的样本点，在确定了样本均值m和基底e后，我们都可以用一个一维的数据a表示我们新的样本点，如X_k对应于m+a_ke，要注意的是两者并不相等，后文中我们会通过确定一个最优的基底e使得两者的距离和最小。经过以上步骤，我们就把n个d维的样本点X₁,X_2,...Xn降维成了n个1维的数据a₁,a₂,...a_n,这本质上就是重新确定了一个数量更小的坐标轴来确定空间上的点，a表示每个数据点在该基底上的投影大小，只不过我们这个例子只有一个基底，即d维降维成1维。

我们需要确定最优的a_k和基底e的方向使得式(5)中平方误差准则函数最小，注意到这是关于a_k(k=1,2...n)和基底e的函数：

$J_1(a_1,a_2,...a_n,e)=\sum_{k=1}^n||(m+a_ke)-X_k||^2=\sum_{k=1}^n(a_k^2||e||^2-2a_ke^T(X_k-m))+\sum_{k=1}^n||X_k-m||^2 \tag{5}$