EDA 自动化库:SpeedML

EDA 自动化库:SpeedML

必须知道的库之一,才能拥有深刻的 EDA!

在数据科学领域,我们知道探索性数据分析或 EDA 是最重要和最耗时的部分,并且要拥有可用于模型的数据,我们必须花费大量时间来理解和处理数据。

SpeedML 是一个用于快速启动机器学习管道的 python 包。

SpeedML 导入并正确初始化其中已定义的流行 ML 包,包括 pandas、numpy、sklearn、xgboost 和 matplotlib。
简而言之,我们只需要导入 SpeedML,我们就可以创建各种各样的图、清理数据、添加和删除特征等。

由于迭代开发、线性工作流程和基于组件的 API,使用 SpeedML 包的编码速度提高了 3 倍,并将编码时间减少了 70%。

在这篇博客中,我们将看到一些我们可以使用 speedml 的特性以及 EDA 将变得多么有趣!

我将使用一个非常著名的“titanic.csv”,它分为训练和测试 excel 表。

安装:

点安装速度ml

导入所需的库:

从 speedml 导入 Speedml

初始化 Speedml :

sml=Speedml('train.csv','test.csv',target='Survived',uid='PassengerId')
sml.shape() #查看形状

探索性数据分析:

sml.train.head()

sml.train.describe()

sml.train.info()
打印('-'*40)
sml.test.info()

 <class 'pandas.core.frame.DataFrame'>  
 RangeIndex:891 个条目,0 到 890  
 数据列(共11列):  
 # 列非空计数 Dtype  
 --- ------ -------------- -----  
 0 幸存的 891 非空 int64  
 1 Pclass 891 非空 int64  
 2 命名 891 非空对象  
 3 Sex 891 非空对象  
 4 年龄 714 非空 float64  
 5 SibSp 891 非空 int64  
 6 修订版 891 非空 int64  
 7 票证 891 非空对象  
 8 票价 891 非空 float64  
 9 Cabin 204 非空对象  
 10 Embarked 889 非空对象  
 数据类型:float64(2)、int64(4)、object(5)  
 内存使用量:76.7+ KB  
 -------------------------------------------------- --------------------------------------  
 <class 'pandas.core.frame.DataFrame'>  
 RangeIndex:418 个条目,0 到 417  
 数据列(共10列):  
 # 列非空计数 Dtype  
 --- ------ -------------- -----  
 0 Pclass 418 非空 int64  
 1 名称 418 非空对象  
 2 Sex 418 非空对象  
 3 年龄 332 非空 float64  
 4 SibSp 418 非空 int64  
 5 修订版 418 非空 int64  
 6 票证 418 非空对象  
 7 票价 417 非空 float64  
 8 Cabin 91 非空对象  
 9 Embarked 418 非空对象  
 数据类型:float64(2)、int64(3)、object(5)  
 内存使用量:32.8+ KB

sml.plot.correlate()

绘制所有数字特征的多个特征分布直方图。这有助于了解从正态(水平中间)到快速且相对识别数据集中异常值的分布偏斜。

sml.plot.distribute()

我们可以在分类特征上使用小提琴图来记录目标变量中值的分布以及任何异常值的存在(图中延伸的细长线)。

sml.plot.ordinal('SibSp')

我们使用散点图来确定连续特征的异常值。曲线的上部或下部越向外扩展,离群值越偏离正态分布。

sml.plot.continuous('年龄')

sml.plot.continuous('票价')

sml.feature.impute()

sml.plot.importance()

我们可以使用交叉制表特征和目标方法来记录样本在按某个特征分类时如何分布在目标变量中。

sml.plot.crosstab('幸存的','性别')

sml.plot.crosstab('幸存的', 'SibSp')

sml.plot.crosstab('幸存', '登船')

最后但是同样重要的

特征重要性

sml.eda()

最后 ,

有许多用于自动化 EDA 并使其更有趣的库。

继续研究,继续学习!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/10916/15190208

posted @ 2022-09-02 08:16  哈哈哈来了啊啊啊  阅读(173)  评论(0编辑  收藏  举报