作业九 主成分分析
一、用自己的话描述出其本身的含义:
1、特征选择
就比如有M个特征,在其中选择N个特征使得系统的特定指标达到最优的结果,这个从M→N的过程就是特征选择。
2、PCA
一种分析、简化数据集的技术,主要是将数据的主成分(包含信息量大的维度)保留下来,忽略掉对数据
描述不重要的成分,应用于特征数量达到上百的时候,考虑数据的简化问题。
二、并用自己的话阐述出两者的主要区别
特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,不会改变原有的特征值;然而PCA降维也称为主成分分析,经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征,简单来说就是去除或者减少这份数据样本的某些属性,降低冗余,用于减少数据集的维度,同时保持数据集中使方差贡献最大的特征。改变了原来特征的形式。PCA降维是从选择最优基向量来选择方差较大的维度,因为我们假定小方差维度携带的信息量可以忽略不计。