PCA学习
PCA是什么,与数据挖掘有何关系?
PCA是一种数据挖掘中常用的一种降维技术,来减少数据的属性
数据挖掘于概理关系?/数据挖掘中数据表是数理统计中的什么?
https://blog.csdn.net/v_JULY_v/article/details/8308762
数据表是样本容量为n的p维随机样本的观测值
https://book.51cto.com/art/201705/539123.htm
https://baike.baidu.com/item/%E5%A4%9A%E7%BB%B4%E9%9A%8F%E6%9C%BA%E6%A0%B7%E6%9C%AC
概率论和数理统计的关系?
https://www.zhihu.com/question/20269390
概率论是知道数据的生成过程情况下,求观测数据的一些特点(概率)
#数理统计是知道观察数据的结果,求数据生成过程。
样本点,样本空间,事件是什么,他们之间的关系是什么?
https://zh.wikipedia.org/zh-hans/%E6%A0%B7%E6%9C%AC%E7%A9%BA%E9%97%B4
样本点是随机试验的一个可能结果,eg (172cm,62kg)
样本空间是所有样本点的集合,或者说是随机试验可能结果的集合,eg R^2
事件是样本空间的一个子集,eg (x, y), 其中x>170cm, y < 60kg
#随机事件的频率是什么,随机变量的概率是什么?他们之间的关系是什么?
频率是随机试验的统计结果:对于随机事件A——男性身高在170-180cm,我就进行随机试验(n次重复)——抽样n个男性的身高,则f = na / n
并且频率会出现一个性质,随着试验重复数的增加,f会趋向稳定于一个值,我们把这个值定义为随机事件的概率
概率有两种定义:第一种是频率的极限值,第二种是公理化。
随机变量的概率其实就算随机事件的概率。例子:
P{骰子摇中1点} = P{e|X(e)=1} = P{X=1}
#随机变量是什么?随机变量与样本的关系是什么?
https://zh.wikipedia.org/zh-hans/%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F
随机变量是样本空间S到R的一个函数。
总体和随机变量的一个关系?
总体显然不是随机变量,总体是客观存在的事物或其属性的总和,是一个确定的事物,没有随机性。我们经常会说这是一个正态总体,但这并不表明这个总体是一个服从正态分布的随机变量(或者说随机向量),而是指如果从这个总体中抽取一个随机变量,则服从正态分布,这个随机变量的分布称作总体分布。
其次,抽出的样本可以是一个元素也可以是一组元素。一般来说,抽出的简单随机样本是由 个随机变量, 组成的。这个样本可以认为形成了一个 维随机向量 ,这其中的每一个分量是一个独立的随机变量,而且每一个都服从同一个概率分布,这个分布也就是上述所说的总体分布。
协方差矩阵(样本观察值)是什么?
协方差矩阵的(i,j)元素是样本观察值i,j维度之间的线性相关性的刻画
协方差矩阵的计算公式?
设X为数据集(每一条数据为列向量)
X整体进行平移,使得中心点于原点
C = XXT
(性质:数据平移不改变协方差矩阵)
协方差矩阵的几何意义?
协方差矩阵刻画了数据的形状
其p个特征向量v特征值u分别为数据在vp 方向上的数据离散程度(方差=up),我们可以用 up vp 来描绘数据在vp 方向上的形状
协方差矩阵于线性变换的关系?(前提:数据的中心点为原点)
(1)设协方差为I的数据为D,设协方差为E的数据为D'
TD = D' 其中 TTT = E(通过E的特征值分解中的V表示旋转,U表示拉伸可证)
(2)设协方差为E的数据为D, 设将D旋转于水平后的数据为D1, 设将D2压缩后(k个维度)的数据为D2
D1 = VT D
D2 = 矩阵(I0) D1
所以D2 = V'TD 其中V'为V取前k个列向量所得到的矩阵
这就是PCA算法