数据分析步骤

1.界定问题

界定问题:明确数据分析解决的具体问题是什么,让一个过于抽象和复杂的问题,最终变得明确具体。

What:也就是什么发生了;

Why:为什么会发生这个问题;

How:针对这个问题我们能做什么;

数据分析需要的数据来源于数据库。

基于界定的问题:确定需要什么样的数据,并且把这些数据汇总在一起,成为一个数据的集合,运用SQL从数据库中把需要的数据精确又快速的找到,将原本简单的业务需求背后的原因挖出来,是界定问题环节的重点。

2.收集数据

根据业务问题确定所需要的数据维度,进行数据收集。

工具:SQL、Python

SQL,结构化查询语言,是目前查询和编辑数据库非常简单易学的主流语言。

掌握sql三个最常用的语句:

select from:从表中查询特定字段的数据

select 字段名1,字段名2,字段名3 from 表名

order by:对某个字段排序,比如升序后者降序(默认升序,降序加desc)

select 字段名 from 表名 order by 字段名

limit:限制显示多少条数据

select 字段名 from 数据表 limit 行数;有多个SQL语句时,limit一定要在句末,否则会报错

注意:1.一定要注意标点符号的使用,必须都是英文字符,不然会出现报错;

      2.单个的SQL语句需要以英文分号结尾;

      3.SQL对于大小写并不敏感,所以写语句的时候不管大小写都可以。

3.数据清洗

检查数据中可能存在的问题,对有错误或者有问题的数据进行处理。把干扰的信息处理或者剔除掉,才能保证最后的分析结果是准确的

工具:SQL、Python

SQL:完成数据收集和查询工作;做简单的数据探索,是一门查询语言。

Python:进一步去深入探索得出有洞察的结论,是一个门槛不高、语法又非常简洁易懂的语言而且自带非常丰富的库。

库:实际上就类似于工具包,提供各种不同的功能,不同的库能拿来解决不同的问题。

4.数据可视化

通过图表形式,直观呈现数据的结构与关系,快速找到业务问题的关键要素,把繁杂无序的数据变成可视化的图表,方便快速去理解数据之间的关系,从而发现问题。

工具:Tableau、Python

Python常用工具包:

Matplotlib=“自助”,提供了高度定制化的选择,支持个性化配色;

Seaborn=“套餐”,seaborn库里装好了很多常用的图形,可以直接使用;

处理数据:pdd.info(),查看数据:了解一下数据的基本情况,看有没有需要处理的地方;

数据转换:给非数字类型的数据编号;

代码格式:pdd=pd.get_dummies(pdd),把非数字型变量变成数字型变量;

热力图:pdd.corr()[[‘字段名’]]

sns.heatmap(pdd.corr()[[‘字段名’]])

Python中表示单独一列需要用两对中括号。

5.数据建模

通过工具建立数据分析模型,从而评估与预测业务问题的答案,找到数据之间的规律,最终实现结果的预测和判断。

工具:Python

posted @ 2020-09-09 22:46  y夏末y  阅读(328)  评论(0编辑  收藏  举报