使用 DataPrep 在 Python 中自动执行 EDA 和数据清理
使用 DataPrep 在 Python 中自动执行 EDA 和数据清理
作为一个 数据分析师 ,以最好的方式讲述我们正在分析的数据的故事是最重要的技能之一。为了讲述一个更好的故事,我们需要对数据有更好的理解。
简单来说,拥有一个 更好地理解数据并获得洞察力 ,我们在 Python 中执行 EDA,这有助于我们识别 数据集中的模式,并分析它们之间的相关性和关联性 各种各样的 变量 在...的帮助下 可视化。
任何 EDA 的核心包括
- 数据源
- 数据清洗
- 描述性统计
- 处理缺失值
- 数据可视化
为了执行 EDA 并从分析中得出结论,这需要一些时间 时间和精力 ,但是如果我说有办法 自动生成报告 所有的分析都只是 一行代码?
我将使用 Waste_Haluer 数据集 在这里进行分析,我将使用 Jupyter 笔记本。
让我们从导入 数据准备 图书馆
点安装数据准备
接下来,让我们 加载 waste_hauler 数据 a 我们要使用。
从 dataprep.datasets 导入 load_dataset
df = load_dataset('waste_hauler')
df
我们可以看到数据有 1000 行和 5 列,让我们执行自动化 EDA 以获取数据的概览。
数据报告
从 dataprep.eda 导入 create_report
报告 = 创建报告(df)
报告
上面的代码行计算以下 统计数据 数据:
- 必不可少的类型、唯一值和缺失值。
- 分位数统计是最小值、中值、最大值、范围值和四分位间距值。
- 均值、众数、标准差、总和、中值绝对差、变异系数、峰度和偏度是描述性统计量。
- 频率最高的值。
- 直方图。
- 有两种类型的相关性:Spearman 和 Pearson 矩阵,它们显示相关变量。
- 缺失值——缺失值,缺失值结论。
- 自定义您的绘图:相关矩阵有助于理解属性之间的关系。
然而,EDA 尚未完成。为了更好地理解数据,我们有时需要手动完成 EDA。
我们还可以使用数据准备轻松自定义我们想要的分析。
分析数据框
让我们使用 plot 函数来绘制数据框,这将为我们提供对数据集和每列分布的统计分析和洞察。
分析列
我们可以通过将列名赋予绘图函数来进一步自定义,这将为我们提供列的统计分析以及更多的可视化,如条形图、饼图、词云、词频、词长和值表。
如果我们给数字列绘图,它会给我们统计数据、直方图、Kdeplot、正态 QQ 图、箱线图和值表。
分析 2 列
我们可以比较 2 列,它们为我们提供了类似嵌套条形图、热图和显示列之间关系的堆叠条形图的图。
数据清洗
数据清理是修复或删除数据集中不正确、损坏、格式不正确、重复或不完整数据的过程。
脏数据 能够导致 误导或不正确的见解 这可能导致利益相关者根据他们的数据做出错误的决定。
每个数据集都是 独特的 在它需要如何 清洗干净, 但这里有一些方法可以清理你的数据。
- 删除重复数据
- 2.删除空值
3.填充/输入缺失值
4.过滤异常值
5. 规范化数据错别字/差异
6.正确转换数据类型
它也可以是一个 清理数据的漫长过程, 但是确保您的数据可以被适当使用是非常值得的,让我们看看如何 使用数据准备清理数据。自动清洁。
清洁标题
**从** 数据准备清理 **进口** clean_headers
clean_headers **(** df,case="常量 **)**
要清理标题,我们使用 clean_headers 函数,并且我使用 case 样式作为常量,我们可以使用各种样式,例如
.snake:“列名”
.kebab:“列名”
- 骆驼:“列名”
- 帕斯卡:“列名”
- 常量:“COLUMN_NAME”
- 句子:“列名”
- 标题:“列名”
- 下:“列名”
- 上:“列名”
清洁电话号码
从 dataprep.clean 导入 clean_phone
清洁电话(df,“电话”)
clean_phone(df, "PHONE", output_format="national",split=True, fix_missing="auto")
这里的输出格式设置我们希望电话号码显示的样式和 分裂
参数将包含已清理电话号码值的各个列添加到给定的 DataFrame。默认情况下, fix_missing
参数设置为“空”(保留缺少的国家代码)。如果设置为“auto”,则国家代码设置为“1”。
代替
clean_headers(df, replace={"PHONE": "CONTACT NUMBER"})
这些是使用数据准备的几种方法。 clean 并且它有更多我们可以使用的参数。你可以检查我在这里使用的代码。
使用 Dataprep 的优势:
- 使用 Matplotlib 或 Seaborn 绘制数据可能看起来很困难,尤其是如果您是初学者。
- 还有其他自动化 EDA 库,例如 Pandas Profiling 和 AutoViz,但 DataPrep 相对更快,我们可以在此处自定义报告,这是其他人无法做到的。
- DataPrep.EDA 通过接受 Dask 数据帧作为输入来支持存储在 Dask 集群中的大数据。
资源
感谢您花时间阅读博客,希望它对您有用。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明