摘要:
前面介绍了主成分分析,概率主成分分析是对主成分分析在概率上的一种推广。 概率的引入,为主成分分析带来极大的好处。下面简单介绍概率主成分分析的 导出以及和主成分分析的关系。 在概率主成分分析里面,假设预测数据x是由一个隐变量z生成的,并且隐变量z以及条件概率p(x|z)均服从高斯分布。根据高斯分布的性质,x的边缘分布p(x)也服从高斯分布,因为有了概率,我们可以从全新的角度去理解主成分分析了, 在该模型中,我们有两个参数W和σ,参数可以用极大似然估计求出。 对数似然函数如下,其中上面用到了迹的循环不变性的性质。 我们忽略具体求解过程,分析一下它的解的形式,其中表示数据协方差矩阵最大的M个特征值所 阅读全文
摘要:
主成分分析是一种降维方法,主要用于数据压缩,数据可视化以及特征提取等方面。 现实中我们经常可以遇到维数很高的数据,如一张28*28的图片,可以看作维度为784。类似图片这样的高维数据,实际上各个维度之间具有高度的关联性,即维度之间并非完全独立的。通过进行主成分分析,可以将数据的主要特征提取出来,忽略非 重要特征,从而对数据进行压缩。这里的主成分代表一组规范正交基,每个基用表示,并且满足。假设X表示我们的观测数据矩阵,大小为N*D, 我们希望将其压缩到 N*M的矩阵Z。主成分分析有两种直观上的理解,并且可以 证明这两种直观理解是等价的。第一种方式,我们希望找到这样一组正交基,使得映射后的数据方差 阅读全文