摘要: 转自https://www.cnblogs.com/pinard/p/6208966.html DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Mea 阅读全文
posted @ 2019-05-17 02:47 Parallax 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 转载自https://www.cnblogs.com/pinard/p/9093890.html 在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化 由于标准化 阅读全文
posted @ 2019-05-17 02:35 Parallax 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 转载自https://www.cnblogs.com/pinard/p/9061549.html 在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置 阅读全文
posted @ 2019-05-17 02:33 Parallax 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 转载至https://www.cnblogs.com/pinard/p/9032759.html 特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会 阅读全文
posted @ 2019-05-17 02:30 Parallax 阅读(123) 评论(0) 推荐(0) 编辑