数据探索(2)数据特征分析
数据特征分析
分布分析
1.定量数据的分布分析
对于定量变量而言,选择组数和组宽是做频率分布分析时最主要的问题,一般按照以下步骤进行。
1)求极差
2)决定组距和组数
3)决定分店
4)列出频率分布表
5)绘制频率分布直方图
遵循以下原则:
1)各组之间必须相互排斥
2)各组必须包含所有数据
3)各组的组宽最好相等
2.定性数据的分布分析
对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定型变量的分布。
3.对比分析
(1)绝对数比较
(2)相对数比较
统计量度量
1.集中趋势度量
- 均值
均值对极端值很敏感
截断均值 去掉高、低极端值之后的平均数。 - 中位数
- 众数
众数一般用于离散型变量而非连续型变量
2.离中趋势度量
- 极差
对数据集的极端值非常敏感,并且忽略了位于最大值和最小值之间的数据的分布情况 - 标准差
- 变异系数
- 四分位数间距
周期性分析
周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。
比如年度周期性趋势,季节性周期趋势,周度周期趋势,小时周期趋势等等
贡献度分析
共享度Fenix又称帕累托分析,他的原理是帕累托法则,又称20/80定律。
例如,对一个公司来讲,80%的利润常常来自原20%最畅销的产品,而其他80%的产品只产生了20%的利润。
相关性分析
分析连续变量之间线性相关的程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。
1.判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图。
2.需要同时考察多个变量间的相关关系时,一一绘制它们间的简单散点图是十分麻烦的,此时可利用散点图矩阵同时绘制各变量间的散点图,从而发现多个变量间的主要相关性,这在进行多元线性回归时显得尤为重要。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 零经验选手,Compose 一天开发一款小游戏!
· 通过 API 将Deepseek响应流式内容输出到前端