摘要:
经过之前学习,单独总结一篇特征工程中的经验和方法,以助于学习和参考。 1、对于理解数据、数据的结构、特点来说,单变量特征选择是个非常好的选择。尽管可以用它对特征进行排序来优化模型,但由于它不能发现冗余(例如假如一个特征子集,其中的特征之间具有很强的关联,那么从中选择最优的特征时就很难考虑到冗余的问题 阅读全文
摘要:
特征工程(Feature Engineering)目的是最大限度地从原始数据中提取特征以供算法和模型使用,是数据挖掘模型开发中最耗时、最重要的一步。内容包括:特征处理(Feature Processing)、特征选择(Feature Selection)。 本部分系统的总结特征工作的一些基本概念,以 阅读全文
摘要:
本文将以iris数据集为例,梳理数据挖掘和机器学习过程中数据预处理的流程。在前期阶段,已完成了数据采集、数据格式化、数据清洗和采样等阶段。通过特征提取,能得到未经处理的特征,但特征可能会有如下问题: - 不属于同一量纲 通常采用无量纲化进行处理; - 信息冗余 - 定性特征不能直接使用 通常使用哑编 阅读全文