摘要: 0 - 引入 在特征选择之后,有可能由于特征量过大导致计算量太大、内存溢出或者训练时间长的问题,因此需要通过降维方法将特征维度降低。 常用的降维方法有如下几种: 基于L1惩罚项的模型(上一篇特征选择提到的) 主成分分析法(PCA) 线性判别分析(LDA) 下面通过sklearn并基于iris数据集来 阅读全文
posted @ 2019-04-25 18:22 CZiFan 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 0 - 引入 在数据预处理之后,我们通常需要选择有意义的特征进行后续的训练,一般选取特征的依据有如下两个方面: 特征是否发散(我觉得更好的描述应该是,特征分布是否正常):如果一个特征不发散,则方差接近0,说明各个样本的该特征相差无几,所以该特征对于样本的区分用处不大; 特征与目标的相关性:对于目标相 阅读全文
posted @ 2019-04-25 17:33 CZiFan 阅读(723) 评论(0) 推荐(0) 编辑
摘要: 0 - 引入 一般通过特征提取或者数据集给出的特征,可能都有如下问题: 由于存在上述问题,因此在我们设计算法和模型之前,我们需要相对数据进行预处理,下面通过sklearn中的preprocessing模块并基于iris数据集来介绍不同的数据预处理。 导入iris数据集。 1 - sklearn方法查 阅读全文
posted @ 2019-04-25 13:40 CZiFan 阅读(412) 评论(0) 推荐(0) 编辑