使用 DataPrep 在 Python 中自动执行 EDA 和数据清理

使用 DataPrep 在 Python 中自动执行 EDA 和数据清理

作为一个 数据分析师 ,以最好的方式讲述我们正在分析的数据的故事是最重要的技能之一。为了讲述一个更好的故事,我们需要对数据有更好的理解。

简单来说,拥有一个 更好地理解数据并获得洞察力 ,我们在 Python 中执行 EDA,这有助于我们识别 数据集中的模式,并分析它们之间的相关性和关联性 各种各样的 变量 在...的帮助下 可视化。

任何 EDA 的核心包括

  • 数据源
  • 数据清洗
  • 描述性统计
  • 处理缺失值
  • 数据可视化

为了执行 EDA 并从分析中得出结论,这需要一些时间 时间和精力 ,但是如果我说有办法 自动生成报告 所有的分析都只是 一行代码?

我将使用 Waste_Haluer 数据集 在这里进行分析,我将使用 Jupyter 笔记本。

让我们从导入 数据准备 图书馆

 点安装数据准备

接下来,让我们 加载 waste_hauler 数据 a 我们要使用。

 从 dataprep.datasets 导入 load_dataset  
 df = load_dataset('waste_hauler')  
 df

我们可以看到数据有 1000 行和 5 列,让我们执行自动化 EDA 以获取数据的概览。

数据报告

 从 dataprep.eda 导入 create_report  
 报告 = 创建报告(df)  
 报告

上面的代码行计算以下 统计数据 数据:

  1. 必不可少的类型、唯一值和缺失值。
  2. 分位数统计是最小值、中值、最大值、范围值和四分位间距值。
  3. 均值、众数、标准差、总和、中值绝对差、变异系数、峰度和偏度是描述性统计量。
  4. 频率最高的值。
  5. 直方图。
  6. 有两种类型的相关性:Spearman 和 Pearson 矩阵,它们显示相关变量。
  7. 缺失值——缺失值,缺失值结论。
  8. 自定义您的绘图:相关矩阵有助于理解属性之间的关系。

然而,EDA 尚未完成。为了更好地理解数据,我们有时需要手动完成 EDA。

我们还可以使用数据准备轻松自定义我们想要的分析。

分析数据框

让我们使用 plot 函数来绘制数据框,这将为我们提供对数据集和每列分布的统计分析和洞察。

分析列

我们可以通过将列名赋予绘图函数来进一步自定义,这将为我们提供列的统计分析以及更多的可视化,如条形图、饼图、词云、词频、词长和值表。

如果我们给数字列绘图,它会给我们统计数据、直方图、Kdeplot、正态 QQ 图、箱线图和值表。

分析 2 列

我们可以比较 2 列,它们为我们提供了类似嵌套条形图、热图和显示列之间关系的堆叠条形图的图。

数据清洗

数据清理是修复或删除数据集中不正确、损坏、格式不正确、重复或不完整数据的过程。

脏数据 能够导致 误导或不正确的见解 这可能导致利益相关者根据他们的数据做出错误的决定。

每个数据集都是 独特的 在它需要如何 清洗干净, 但这里有一些方法可以清理你的数据。

  1. 删除重复数据
  2. 2.删除空值

3.填充/输入缺失值

4.过滤异常值

5. 规范化数据错别字/差异

6.正确转换数据类型

它也可以是一个 清理数据的漫长过程, 但是确保您的数据可以被适当使用是非常值得的,让我们看看如何 使用数据准备清理数据。自动清洁。

清洁标题

**从** 数据准备清理 **进口** clean_headers  
 clean_headers **(** df,case="常量 **)**

要清理标题,我们使用 clean_headers 函数,并且我使用 case 样式作为常量,我们可以使用各种样式,例如

.snake:“列名”

.kebab:“列名”

  • 骆驼:“列名”
  • 帕斯卡:“列名”
  • 常量:“COLUMN_NAME”
  • 句子:“列名”
  • 标题:“列名”
  • 下:“列名”

  • 上:“列名”

清洁电话号码

 从 dataprep.clean 导入 clean_phone  
 清洁电话(df,“电话”)

 clean_phone(df, "PHONE", output_format="national",split=True, fix_missing="auto")

这里的输出格式设置我们希望电话号码显示的样式和 分裂 参数将包含已清理电话号码值的各个列添加到给定的 DataFrame。默认情况下, fix_missing 参数设置为“空”(保留缺少的国家代码)。如果设置为“auto”,则国家代码设置为“1”。

代替

 clean_headers(df, replace={"PHONE": "CONTACT NUMBER"})

这些是使用数据准备的几种方法。 clean 并且它有更多我们可以使用的参数。你可以检查我在这里使用的代码。

使用 Dataprep 的优势:

  1. 使用 Matplotlib 或 Seaborn 绘制数据可能看起来很困难,尤其是如果您是初学者。
  2. 还有其他自动化 EDA 库,例如 Pandas Profiling 和 AutoViz,但 DataPrep 相对更快,我们可以在此处自定义报告,这是其他人无法做到的。
  3. DataPrep.EDA 通过接受 Dask 数据帧作为输入来支持存储在 Dask 集群中的大数据。

资源

EDA

数据清洗

感谢您花时间阅读博客,希望它对您有用。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/39728/33342909

posted @ 2022-09-29 09:34  哈哈哈来了啊啊啊  阅读(480)  评论(0编辑  收藏  举报