主成分分析
Evernote Export
主成分分析(PCA)
- 非监督学习的机器学习算法
- 主要用于数据的降维
- 通过降维,可以发现更便于人类理解的特征
- 其他应用:可视化;去噪
主成分分析概念
对于二维数据,只选取其中一个特征,就达到降维的目的
第一步:dmean,所有的样本归零
Var(x)=m1i=1∑m(xi−x)2
x=0
主成分分析法:
1.对所有的样本进行demean处理
2.求一个轴的方向w=(w1,w2)
3.使得所有的样本,映射到w以后,有Var(Xproject)=m1∑i=1m(Xproject(i)−Xproject)2最大
最终会化简为求一个目标函数的最优化问题,使用梯度上升法解决
线性回归和主成分分析差异在于:线性回归最终是求得输出标记,回归结果使得MSE尽量小
import numpy as np
import matplotlib.pyplot as plt
X = np.empty((100,2))
X[:,0] = np.random.uniform(0.,100.,size=100)
X[:,1] = 0.75 * X[:,0]+3+np.random.normal(0,10.,size=100)
plt.scatter(X[:,0],X[:,1])
plt.show()
降维过程 demean
def demean(x):
return x- np.mean(x,axis=0)
X_demean = demean(X)
plt.scatter(X_demean[:,0],X_demean[:,1])
plt.show()
主成分分析法是一组坐标系转换去另一组坐标系的方式
数据进行改变,将数据在第一个主成分上的分量去掉后就可以实现另一个主成分分析
高维数据向低维数据映射
XWkT˙
在降维的过程中丢失的信息是难以恢复的,XkWk=Xm
Win a contest, win a challenge
posted on 2019-01-31 19:48 pandaboy1123 阅读(290) 评论(0) 编辑 收藏 举报