数据降维PCA——学习笔记

PCA主成分分析

PCA降维。基于方差降维，属于无监督学习。无需数据标签。

使方差（数据离散量）最大，变换后数据分开。更易于分类。

可以对隐私数据PCA，数据加密。

基变换

投影->内积

正交的基，两个向量垂直（内积为0，线性无关）

先将基化成各维度下的单位向量。

一般把数据写成列向量的形式，新的基写成矩阵的形式。

基×向量（基要在左乘，行表示一组基向量；样本在右，列对应一个样本，m列即m个样本（n*m））

R个基向量，行向量表示。R维空间内，p1...pr。p是行向量。

m个样本，m列。n个特征。

将右面矩阵内每一个列向量（样本），映射到R维空间内

原来可能有n个特征，现在变成了R个特征。m个样本：

选择一组基，要尽可能保留原来信息，但又更离散（方差大），易于分类。

数据预处理，标准化，使均值为0。

方差：Var(a)=1/m*{减去均值后求和}。方差表示一个特征的离散程度。

协方差：为两个值相乘。协方差（绝对值）越大表示两个特征越相关，为0则无关。

二维的数据点，投影到一维。寻找方差最大的方向。

可以发现，第二个图中，刚好直线上投影点更离散。

先会对数据中心化，变成均值为0。即类似方差中的μ=0。a^2->a

m个样本

可以发现，协方差矩阵中刚好包含了所需要考虑的方差与协方差。

且二者的位置关系十分巧妙，方差恰好在主对角线上，协方差在对角。

需求可以恰好等价为协方差矩阵对角化。

即，寻找基，使得协方差矩阵对角化。

协方差矩阵同时包含了方差和协方差。
希望方差最大，协方差最小。

最大的特征值对应的特征向量，就是方差最大。选前k个最大的，k个单位向量->最好的k个基

这里，求得最大的特征值后，可以直接找对应的特征向量来用，对角化步骤貌似可以省略。

二维,5个样本

降到一维,选一个c1

两个特征向量,一定是可以把协方差矩阵对角化。

posted @ 2018-12-19 20:55 ostartech 阅读(799) 评论(0) 编辑收藏举报

刷新页面返回顶部