摘要: 特征抽取与特征选择在功能上类似,都最终实现了数据集特征数量的减少,但特征选择得到的是原有特征的子集,而特征抽取是将原有特征根据某种函数关系转换为新的特征,并且数据集维度比原来的低。两者所得到的的特征集合与原特征集合对应关系不同。 4.1 无监督特征抽取 实现无监督特征抽取的算法有很多,这里仅以“主成 阅读全文
posted @ 2022-06-09 21:28 王陸 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 经过“数据清理”和“特征变换”后的数据集,已经满足了数据科学项目中算法对数值的基本要求。但是, 不呢止步于此,数据集的特征数量、质量会影响计算效率和最终模型的预测、分类效果。所以要对特征进行选择,即根据具体的项目选择适合的特征。 3.1 特征选择简述 是不是维度越大的数据越好?是不是所有的维度都是必 阅读全文
posted @ 2022-06-09 20:20 王陸 阅读(728) 评论(0) 推荐(0) 编辑
摘要: 数据科学项目中少不了要用到机器学习算法。通常每种算法都会对数据有相应的要求,比如有的算法要求数据集特征是离散的,有的算法要求数据集特征是分类型的,而数据集特征不一定就满足这些要求,必须依据某些原则、方法对数据进行变换。 2.1 特征的类型 特征的类型由其所有值的集合决定,通常有如下几种: 分类型:性 阅读全文
posted @ 2022-06-09 16:20 王陸 阅读(672) 评论(0) 推荐(0) 编辑
摘要: 现实的数据是多种多样的,即使它们已经是结构化的,仍可能存在各种问题,如数据不完整、丢失、类型错误、前后不一致等。因此需要进行数据清理(Data cleaning),也译为数据清洗。 1.1 基本概念 通常以二维表的方式表示数据,Pandas的DataFrame类型的数据是最常见的。 import p 阅读全文
posted @ 2022-06-09 14:02 王陸 阅读(282) 评论(0) 推荐(0) 编辑