摘要: 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: · 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 · 特征与目标的相关性:这点比较显见,与目标相关性 阅读全文
posted @ 2018-09-11 14:08 eo_will 阅读(5003) 评论(0) 推荐(1) 编辑
摘要: 当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。降维(dimensionality reduction)是指通过对原有的feature进行重新组合,形成新的feature,选取其中的principal compone 阅读全文
posted @ 2018-09-11 14:08 eo_will 阅读(1585) 评论(0) 推荐(0) 编辑
摘要: 经过之前学习,单独总结一篇特征工程中的经验和方法,以助于学习和参考。 1、对于理解数据、数据的结构、特点来说,单变量特征选择是个非常好的选择。尽管可以用它对特征进行排序来优化模型,但由于它不能发现冗余(例如假如一个特征子集,其中的特征之间具有很强的关联,那么从中选择最优的特征时就很难考虑到冗余的问题 阅读全文
posted @ 2018-09-11 14:08 eo_will 阅读(711) 评论(0) 推荐(0) 编辑
摘要: 特征工程(Feature Engineering)目的是最大限度地从原始数据中提取特征以供算法和模型使用,是数据挖掘模型开发中最耗时、最重要的一步。内容包括:特征处理(Feature Processing)、特征选择(Feature Selection)。 本部分系统的总结特征工作的一些基本概念,以 阅读全文
posted @ 2018-09-11 14:07 eo_will 阅读(637) 评论(0) 推荐(0) 编辑
摘要: 本文将以iris数据集为例,梳理数据挖掘和机器学习过程中数据预处理的流程。在前期阶段,已完成了数据采集、数据格式化、数据清洗和采样等阶段。通过特征提取,能得到未经处理的特征,但特征可能会有如下问题: - 不属于同一量纲 通常采用无量纲化进行处理; - 信息冗余 - 定性特征不能直接使用 通常使用哑编 阅读全文
posted @ 2018-09-11 14:07 eo_will 阅读(3841) 评论(0) 推荐(1) 编辑