PCA学习

PCA是什么,与数据挖掘有何关系?

PCA是一种数据挖掘中常用的一种降维技术,来减少数据的属性

 

数据挖掘于概理关系?/数据挖掘中数据表是数理统计中的什么?

https://blog.csdn.net/v_JULY_v/article/details/8308762

 数据表是样本容量为n的p维随机样本的观测值

https://book.51cto.com/art/201705/539123.htm

https://baike.baidu.com/item/%E5%A4%9A%E7%BB%B4%E9%9A%8F%E6%9C%BA%E6%A0%B7%E6%9C%AC

 

概率论和数理统计的关系?

https://www.zhihu.com/question/20269390

概率论是知道数据的生成过程情况下,求观测数据的一些特点(概率)

#数理统计是知道观察数据的结果,求数据生成过程。

 

样本点,样本空间,事件是什么,他们之间的关系是什么?

https://zh.wikipedia.org/zh-hans/%E6%A0%B7%E6%9C%AC%E7%A9%BA%E9%97%B4

样本点是随机试验的一个可能结果,eg (172cm,62kg)

样本空间是所有样本点的集合,或者说是随机试验可能结果的集合,eg R^2

事件是样本空间的一个子集,eg (x, y), 其中x>170cm, y < 60kg

 

#随机事件的频率是什么,随机变量的概率是什么?他们之间的关系是什么?

频率是随机试验的统计结果:对于随机事件A——男性身高在170-180cm,我就进行随机试验(n次重复)——抽样n个男性的身高,则f = na / n

并且频率会出现一个性质,随着试验重复数的增加,f会趋向稳定于一个值,我们把这个值定义为随机事件的概率

概率有两种定义:第一种是频率的极限值,第二种是公理化。

随机变量的概率其实就算随机事件的概率。例子:

P{骰子摇中1点} = P{e|X(e)=1} = P{X=1}

 

#随机变量是什么?随机变量与样本的关系是什么?

https://zh.wikipedia.org/zh-hans/%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F

随机变量是样本空间S到R的一个函数。

 

总体和随机变量的一个关系?

总体显然不是随机变量,总体是客观存在的事物或其属性的总和,是一个确定的事物,没有随机性。我们经常会说这是一个正态总体,但这并不表明这个总体是一个服从正态分布的随机变量(或者说随机向量),而是指如果从这个总体中抽取一个随机变量[公式],则[公式]服从正态分布,这个随机变量[公式]的分布称作总体分布。

其次,抽出的样本可以是一个元素也可以是一组元素。一般来说,抽出的简单随机样本是由 [公式] 个随机变量,[公式] 组成的。这个样本可以认为形成了一个 [公式] 维随机向量 [公式] ,这其中的每一个分量[公式]是一个独立的随机变量,而且每一个[公式]都服从同一个概率分布,这个分布也就是上述所说的总体分布。

 

协方差矩阵(样本观察值)是什么?

协方差矩阵的(i,j)元素是样本观察值i,j维度之间的线性相关性的刻画

 

协方差矩阵的计算公式?

设X为数据集(每一条数据为列向量)

X整体进行平移,使得中心点于原点

C = XX

(性质:数据平移不改变协方差矩阵)

 

协方差矩阵的几何意义?

协方差矩阵刻画了数据的形状

其p个特征向量v特征值u分别为数据在vp  方向上的数据离散程度(方差=up),我们可以用 uv来描绘数据在v方向上的形状

 

协方差矩阵于线性变换的关系?(前提:数据的中心点为原点)

(1)设协方差为I的数据为D,设协方差为E的数据为D'

TD = D' 其中 TT= E(通过E的特征值分解中的V表示旋转,U表示拉伸可证)

 

(2)设协方差为E的数据为D, 设将D旋转于水平后的数据为D1, 设将D2压缩后(k个维度)的数据为D2

D1 = VT D

D2 = 矩阵(I0) D1

所以D2 = V'TD 其中V'为V取前k个列向量所得到的矩阵

这就是PCA算法

posted @ 2020-10-17 09:01  爱弹琴的小黑  阅读(181)  评论(0编辑  收藏  举报