数据分析步骤
1.界定问题
界定问题:明确数据分析解决的具体问题是什么,让一个过于抽象和复杂的问题,最终变得明确具体。
What:也就是什么发生了;
Why:为什么会发生这个问题;
How:针对这个问题我们能做什么;
数据分析需要的数据来源于数据库。
基于界定的问题:确定需要什么样的数据,并且把这些数据汇总在一起,成为一个数据的集合,运用SQL从数据库中把需要的数据精确又快速的找到,将原本简单的业务需求背后的原因挖出来,是界定问题环节的重点。
2.收集数据
根据业务问题确定所需要的数据维度,进行数据收集。
工具:SQL、Python
SQL,结构化查询语言,是目前查询和编辑数据库非常简单易学的主流语言。
掌握sql三个最常用的语句:
select from:从表中查询特定字段的数据
select 字段名1,字段名2,字段名3 from 表名
order by:对某个字段排序,比如升序后者降序(默认升序,降序加desc)
select 字段名 from 表名 order by 字段名
limit:限制显示多少条数据
select 字段名 from 数据表 limit 行数;有多个SQL语句时,limit一定要在句末,否则会报错
注意:1.一定要注意标点符号的使用,必须都是英文字符,不然会出现报错;
2.单个的SQL语句需要以英文分号结尾;
3.SQL对于大小写并不敏感,所以写语句的时候不管大小写都可以。
3.数据清洗
检查数据中可能存在的问题,对有错误或者有问题的数据进行处理。把干扰的信息处理或者剔除掉,才能保证最后的分析结果是准确的
工具:SQL、Python
SQL:完成数据收集和查询工作;做简单的数据探索,是一门查询语言。
Python:进一步去深入探索得出有洞察的结论,是一个门槛不高、语法又非常简洁易懂的语言而且自带非常丰富的库。
库:实际上就类似于工具包,提供各种不同的功能,不同的库能拿来解决不同的问题。
4.数据可视化
通过图表形式,直观呈现数据的结构与关系,快速找到业务问题的关键要素,把繁杂无序的数据变成可视化的图表,方便快速去理解数据之间的关系,从而发现问题。
工具:Tableau、Python
Python常用工具包:
Matplotlib=“自助”,提供了高度定制化的选择,支持个性化配色;
Seaborn=“套餐”,seaborn库里装好了很多常用的图形,可以直接使用;
处理数据:pdd.info(),查看数据:了解一下数据的基本情况,看有没有需要处理的地方;
数据转换:给非数字类型的数据编号;
代码格式:pdd=pd.get_dummies(pdd),把非数字型变量变成数字型变量;
热力图:pdd.corr()[[‘字段名’]]
sns.heatmap(pdd.corr()[[‘字段名’]])
Python中表示单独一列需要用两对中括号。
5.数据建模
通过工具建立数据分析模型,从而评估与预测业务问题的答案,找到数据之间的规律,最终实现结果的预测和判断。
工具:Python
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)