2018 年 9月 11 日随笔档案 - eo_will

2018年9月11日

摘要：当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征： · 特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。 · 特征与目标的相关性：这点比较显见，与目标相关性阅读全文

posted @ 2018-09-11 14:08 eo_will 阅读(5003) 评论(0) 推荐(1) 编辑

机器学习 | 特征工程（三）- 特征降维

摘要：当特征选择完成后，可以直接训练模型了，但是可能由于特征矩阵过大，导致计算量大，训练时间长的问题，因此降低特征矩阵维度也是必不可少的。降维（dimensionality reduction）是指通过对原有的feature进行重新组合，形成新的feature，选取其中的principal compone 阅读全文

posted @ 2018-09-11 14:08 eo_will 阅读(1585) 评论(0) 推荐(0) 编辑

机器学习 | 特征工程- 总结

摘要：经过之前学习，单独总结一篇特征工程中的经验和方法，以助于学习和参考。 1、对于理解数据、数据的结构、特点来说，单变量特征选择是个非常好的选择。尽管可以用它对特征进行排序来优化模型，但由于它不能发现冗余（例如假如一个特征子集，其中的特征之间具有很强的关联，那么从中选择最优的特征时就很难考虑到冗余的问题阅读全文

posted @ 2018-09-11 14:08 eo_will 阅读(711) 评论(0) 推荐(0) 编辑

机器学习 | 特征工程- 引言

摘要：特征工程（Feature Engineering）目的是最大限度地从原始数据中提取特征以供算法和模型使用，是数据挖掘模型开发中最耗时、最重要的一步。内容包括：特征处理（Feature Processing）、特征选择（Feature Selection）。本部分系统的总结特征工作的一些基本概念，以阅读全文

posted @ 2018-09-11 14:07 eo_will 阅读(637) 评论(0) 推荐(0) 编辑

机器学习 | 特征工程（一）- 数据预处理

摘要：本文将以iris数据集为例，梳理数据挖掘和机器学习过程中数据预处理的流程。在前期阶段，已完成了数据采集、数据格式化、数据清洗和采样等阶段。通过特征提取，能得到未经处理的特征，但特征可能会有如下问题： - 不属于同一量纲通常采用无量纲化进行处理； - 信息冗余 - 定性特征不能直接使用通常使用哑编阅读全文

posted @ 2018-09-11 14:07 eo_will 阅读(3841) 评论(0) 推荐(1) 编辑

EO_Admin

学习记录分享

公告

EO_Admin

学习 记录 分享

公告

学习记录分享