数据分析过程
数据分析过程
什么是数据分析?
数据分析是检查、转换、清理和建模数据的过程,目的是发现有用的信息、得出结论并支持决策制定。
数据分析的五个步骤:
问问题
数据整理/数据预处理
探索性数据分析
得出结论
沟通结果
1. 提问:
在这种情况下,我们有两个场景,首先公司提供数据并通过分析数据定义他们希望您回答的问题。
在第二种情况下,公司只定义主要问题,您必须根据自己的问题通过分析数据来找到该问题的解决方案。
哪些功能将有助于我的分析?
哪些特征对我的分析不重要?
哪些特征具有很强的相关性?
我需要数据预处理吗?
需要什么样的特征操作/工程?
如需更好的问题,请咨询 主题专长 和 经验 必需的。
2.数据整理/数据预处理:
它是将数据从一种原始格式转换和映射到另一种数据格式的过程,目的是使其更适合各种低流目的(如分析)并更有价值。
如果您的数据对数据分析无效,则数据清理过程称为数据整理。
收集数据
访问数据——数据的高级概述
清理数据
收集数据: CSV 文件、API、网页抓取、数据库
访问数据: 数据形状、重复数据、描述和信息功能
清洁数据: 丢失数据(平均值),删除重复数据(drop_duplicates),不正确的数据类型(astype),如时间(str to date/time)
3.探索性数据分析:
探索数据:
寻找相关性和协方差
进行单变量和多变量分析
绘制图形(数据可视化)
增强数据: 也被称为 特征工程
使用箱线图去除异常值检查
合并数据框
添加新列
4. 得出结论:
应用机器学习
推论统计
数据分析师的描述性分析
5. 传达结果/数据讲故事:
使用 PPT 展示数据、博客文章、人与人之间的解释和报告。
在这一步中,数据可视化和沟通技巧是最重要的。
这些步骤不是线性的,您可以从一个步骤移动到另一个步骤。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明