用于数据准备的 Python — 探索和清理数据集

用于数据准备的 Python — 探索和清理数据集

什么是数据准备?

数据准备是收集、组合、结构化和组织数据的过程,以便将其用于商业智能 (BI) 应用程序、分析和数据可视化。此过程有时也称为数据整理。

在数据科学家开始使用分析工具和报告探索数据之前,必须首先完成数据准备作为第一步。简而言之,数据准备是获取原始数据并准备将其引入分析平台的过程。为了达到准备的最后阶段,必须对数据进行清理、格式化并转换为分析工具可以消化的东西。

一般数据准备步骤

  1. 数据采集
    相关数据是从操作系统、数据仓库、数据湖和其他数据源收集的。
  2. 数据发现和分析
    数据发现和分析对于探索收集的数据很有用。通过这种探索,数据中包含的内容将更容易理解。还可以确定根据其预期用途准备数据所需采取的步骤。
  3. 数据清理
    数据清洗是纠正已识别的数据错误和问题的过程,以创建完整和准确的数据集。例如,作为数据清洗的一部分,错误的数据将被删除或更正,缺失的值将被填充,不一致的条目将被对齐。
  4. 数据格式化
    数据集清洗后,需要对数据进行格式化。此步骤包括解决数据中的多种日期格式或不一致的缩写等问题。也有可能某些数据变量不是分析所必需的,因此应该从分析数据集中删除。
  5. 数据组合与分析
    当数据集被清理和格式化后,可以通过与输入集合并来修改数据。分析开始后,对数据集的更改应极其谨慎。
  6. 数据验证和发布
    然后将准备好的数据存储在数据仓库、数据湖或其他存储库中,并由准备数据的人直接使用。它也可以供其他用户访问。

使用 Python 进行数据准备示例

使用的数据集是从电子商务获得的原始数据。在将数据用于数据可视化、数据分析和发现洞察之前,需要首先对数据进行处理和探索,使其成为可供分析的干净数据。

谷歌实验室可以在这里访问: https://colab.research.google.com/drive/1rrhhveIOwDYBnJaleeEQL5Yn3uUCQE8L?usp=sharing

可以在此处访问要使用的原始数据: https://drive.google.com/file/d/1eFqyQEx_ARsCdv05d9ZNqVEvY-83mswB/view?usp=sharing

问题:
1. 部分记录仍包含标题行
2. 部分记录仍包含重复
3.日期时间仍然包含2种日期时间格式

基于这个问题,那么数据探索过程将是:

  1. 阅读和理解数据
  2. 删除包含标题行的行
  3. 检查重复记录,然后删除重复记录中的 1 个
  4. 格式化日期时间

更多详细信息,您可以直接访问 Google Collaboratory,您可以立即尝试进行数据准备。

致谢

特别感谢 MySkill 在“Intensive Data Science Bootcamp Batch 2”计划中教我有关 Python 和数据科学数据可视化的知识。我还要感谢我的导师和导师在训练营期间对我的指导。

跟着我们

我的技能(领英)
MySkill 导师(LinkedIn):Kak Yosi
MySkill 导师(LinkedIn):Kak Riza
MySkill 管理员 (LinkedIn): Kak Elsa
我的领英

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/38326/20162111

posted @ 2022-09-21 11:22  哈哈哈来了啊啊啊  阅读(88)  评论(0编辑  收藏  举报