05 2018 档案

摘要:在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体 阅读全文
posted @ 2018-05-26 20:23 刘建平Pinard 阅读(31232) 评论(113) 推荐(27) 编辑
摘要:在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和离散化处理,连续特征的离散化处理几个方面。 1. 缺失值处理 特征有缺失值 阅读全文
posted @ 2018-05-19 22:39 刘建平Pinard 阅读(28009) 评论(107) 推荐(12) 编辑
摘要:特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。 1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业 阅读全文
posted @ 2018-05-13 20:13 刘建平Pinard 阅读(56851) 评论(115) 推荐(31) 编辑

点击右上角即可分享
微信分享提示