推导:PCA主成分分析&LDA线性判别分析

推导:PCA主成分分析&LDA线性判别分析

    希望自己学过了就留个痕。

​ PCA和LDA都是在通过降维进行特征提取,PCA倾向于数据重构(就如名字一样 主成分分析),LDA倾向于数据分类(更好的将不同类别分开)。

​ 考虑它具体在做什么事情,其实在每个样本进行中心化处理后(减去均值),一个样本就变成了一个距离向量来描述与中心的距离(PCA的中心是所有样本的中心,LDA的中心是类内的或总的),用协方差矩阵来描述样本之间的聚or散的程度。

​ 现在求一个投影向量 \(w\) ,考虑把这些距离向量投影到一维上面,协方差矩阵就变成 \(1\times 1\) 的了,可以理解为此时的这个值(不妨设为 \(J\) )就描述样本间聚or散的程度的(显然嘛)。

​ 所以最后的思路就是用 \(w\) 以及样本数据把 \(J\) 表示出来,然后求偏导就能做了,具体看后面吧。

image-20230610002245003

1 PCA主成分分析

​ PCA的目标是找到一组新的坐标轴,以此方式将原始数据空间进行旋转。新的坐标轴(或者叫做主成分)的选择是基于数据方差最大化的准则。这意味着第一主成分的选择是沿着数据具有最大方差的方向,第二主成分选择沿着与第一主成分正交并具有第二大方差的方向,依此类推。

​ 现在我们有一个n维的数据集,并且我们已经计算了其均值并进行了中心化处理(即减去均值,使新的数据集的均值为0)。

​ 假设我们想要找到第一主成分。我们可以定义一个单位向量u(u的转置乘以u为1),使得所有数据点到u的投影的方差最大。方差可以定义为:

\[V=\sum (x_i\cdot u)^2 \]

​ 这是所有点 \(x_i\) 在 u 上的投影的平方和,我们需要找到最大化V的u。这是一个优化问题,可以通过拉格朗日乘数法来解决,引入一个拉格朗日乘数λ,并将约束条件 \(u^T u = 1\) 带入。

\[L = \sum(x_i \cdot u)^2 - λ(u^Tu - 1) \]

​ 我们需要找到最大化L的u,可以通过对u和λ分别求偏导,然后令它们等于零来解决。

\[\sum (x_i\cdot u)^2\\ =\sum u^Tx_i\times x_i^Tu \\ =u^T(\sum x_i\times x_i^T )u\\ =u^T Cov(X)u \]

​ 这个优化问题要求我们找到一个向量u,使得在 \(u^T u = 1\) 满足约束条件下,最大化 \(u^T Cov(X)u\)\(Cov(X)\) 是数据的协方差矩阵,其中 \(X\) 是数据矩阵。

​ 这个问题的解决方案是 \(Cov(X)\) 的特征向量,其对应的特征值是最大的。我们来看看这是如何工作的。

​ 首先,我们计算 L 关于u和λ的偏导数,并将这些偏导数设为0。对于u,我们有:

\[∂L/∂u = 2 \times Cov(X) \times u - 2λu = 0 \]

​ 这个公式可以整理为:

\[Cov(X) \times u = λu \]

​ 此时 L 关于u的偏导就为0了,考虑我们要最大化的是 \(u^T Cov(X)u=\lambda u^Tu\) ,所以最大化特征值就是最大化的方差值。按照特征值从大到小的顺序排列特征向量,我们就得到了主成分。显然不同特征值对应的特征向量是正交的,满足我们要求。

2 LDA线性判别分析

​ 对于线性判别分析(Linear Discriminant Analysis, LDA),我们可以定义类内散度(within-class scatter)和类间散度(between-class scatter)的公式如下:

​ 假设我们有C个类别,每个类别c有 \(N_c\) 个样本。每个样本是一个n维向量,记为x。每个类别的均值向量记为 \(\mu_c\) ,所有样本的全局均值向量记为 \(μ\)

  1. 类内散度(Within-class scatter):

    类内散度矩阵 \(S_w\) 可以通过下式计算:

    \[S_w =\sum_c \sum_i (x_i - μ_c)(x_i - μ_c)^T \]

  2. 类间散度(Between-class scatter):

    类间散度矩阵 \(S_b\) 可以通过下式计算:

    \[S_b = \sum_c N_c (μ_c - μ)(μ_c - μ)^T \]

​ 在进行LDA时,我们的目标是找到一个投影向量w,使得类间散度矩阵的迹最大化,同时类内散度矩阵的迹最小化。

\[\max \cfrac{ trace\ \ \sum_c\sum_i w^T(x_i - μ_c)(x_i - μ_c)^Tw }{trace\ \ \sum_c N_c w^T(μ_c - μ)(μ_c - μ)^Tw}\\ \]

​ 因为投影过后的向量是一维的,所以trace可以去掉,等价于

\[\max J(w)=\cfrac{w^TS_bw}{w^TS_ww} \]

​ 我们注意到上述优化问题有一个隐含的约束,即 w 的长度(或说范数)应为1。这是因为,如果不加这个约束,我们可以通过无限增大 w 的长度来无限增大J(w)的值,这显然是无意义的。因此,我们的优化问题实际上是带约束的,形式如下:

\[\max J(w)=\cfrac{w^TS_bw}{w^TS_ww}\\ w^Tw=1 \]

​ 化成无约束问题:

\[L(w)=w^T(S_bS_w^{-1})w -\lambda(w^Tw-1) \]

​ 然后对w和λ分别求偏导并设为0,我们可以得到如下的等式:

\[∂L/∂w = 2 (S_bS_w^{-1}) w - 2λw = 0 \\ ∂L/∂λ = w^Tw - 1 = 0\\ 即\ (S_bS_w^{-1}) w = λw \]

​ 因为 \(\max J(w)=\cfrac{w^TS_bw}{w^TS_ww}=w^T(S_bS_w^{-1}) w=\lambda w^Tw\) ,所以现在要最大化 \(\lambda\) ,即求 \(S_bS_w^{-1}\) 最大的特征值对应的特征向量。若降维到 \(m\) 维,就是求前 \(m\) 大的特征值对应的特征向量。

posted @ 2023-06-10 00:47  缙云山车神  阅读(94)  评论(0编辑  收藏  举报