用于数据准备的 Python — 探索和清理数据集
用于数据准备的 Python — 探索和清理数据集
什么是数据准备?
数据准备是收集、组合、结构化和组织数据的过程,以便将其用于商业智能 (BI) 应用程序、分析和数据可视化。此过程有时也称为数据整理。
在数据科学家开始使用分析工具和报告探索数据之前,必须首先完成数据准备作为第一步。简而言之,数据准备是获取原始数据并准备将其引入分析平台的过程。为了达到准备的最后阶段,必须对数据进行清理、格式化并转换为分析工具可以消化的东西。
一般数据准备步骤
- 数据采集
相关数据是从操作系统、数据仓库、数据湖和其他数据源收集的。 - 数据发现和分析
数据发现和分析对于探索收集的数据很有用。通过这种探索,数据中包含的内容将更容易理解。还可以确定根据其预期用途准备数据所需采取的步骤。 - 数据清理
数据清洗是纠正已识别的数据错误和问题的过程,以创建完整和准确的数据集。例如,作为数据清洗的一部分,错误的数据将被删除或更正,缺失的值将被填充,不一致的条目将被对齐。 - 数据格式化
数据集清洗后,需要对数据进行格式化。此步骤包括解决数据中的多种日期格式或不一致的缩写等问题。也有可能某些数据变量不是分析所必需的,因此应该从分析数据集中删除。 - 数据组合与分析
当数据集被清理和格式化后,可以通过与输入集合并来修改数据。分析开始后,对数据集的更改应极其谨慎。 - 数据验证和发布
然后将准备好的数据存储在数据仓库、数据湖或其他存储库中,并由准备数据的人直接使用。它也可以供其他用户访问。
使用 Python 进行数据准备示例
使用的数据集是从电子商务获得的原始数据。在将数据用于数据可视化、数据分析和发现洞察之前,需要首先对数据进行处理和探索,使其成为可供分析的干净数据。
谷歌实验室可以在这里访问: https://colab.research.google.com/drive/1rrhhveIOwDYBnJaleeEQL5Yn3uUCQE8L?usp=sharing
可以在此处访问要使用的原始数据: https://drive.google.com/file/d/1eFqyQEx_ARsCdv05d9ZNqVEvY-83mswB/view?usp=sharing
问题:
1. 部分记录仍包含标题行
2. 部分记录仍包含重复
3.日期时间仍然包含2种日期时间格式
基于这个问题,那么数据探索过程将是:
- 阅读和理解数据
- 删除包含标题行的行
- 检查重复记录,然后删除重复记录中的 1 个
- 格式化日期时间
更多详细信息,您可以直接访问 Google Collaboratory,您可以立即尝试进行数据准备。
致谢
特别感谢 MySkill 在“Intensive Data Science Bootcamp Batch 2”计划中教我有关 Python 和数据科学数据可视化的知识。我还要感谢我的导师和导师在训练营期间对我的指导。
跟着我们
我的技能(领英)
MySkill 导师(LinkedIn):Kak Yosi
MySkill 导师(LinkedIn):Kak Riza
MySkill 管理员 (LinkedIn): Kak Elsa
我的领英
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明