LEVEL I - PART 4 描述性统计分析
PART 4 描述性统计分析(10%)
总体要求
理解统计基本概念、理解描述性统计相关知识内容、理解描述性统计图表定义及适用场 景、能够应用描述性统计知识描述及探索业务问题。
1. 统计基本概念(占比 2%)
统计学含义及其应用 - 【熟知】
- 统计学的基本概念:数据、总体、样本、参数、变量
2. 数据的描述性统计 (占比 3%)
描述性统计图表:直方图、散点图、箱型图(盒须图)- 【领会】
- 盒须图(⼜称箱线图)相对于直⽅图⽽⾔,提供的信息更精炼。
- 它提供了中位数、均值、上下分位点的信息,这不但可以了解变量的中⼼⽔平,还可以了解变量的变化范围。
- 其中需要说明的是最⼤值和最⼩值,它们不是变量的最⼤值和最⼩值。以盒须图中的最⼩值为例,从上分位点加上1.5倍的内分位距(IQR),该变量在这个范围内的最⼤取值被称为最⼤值,超过1.5倍的内分位距的取值被称为离群值(异常值)。
统计学的相关描述
-
集中趋势的描述:众数、中位数、分位数、平均数
-
离散程度的描述:极差、方差、标准差、离散系数、变异系数、异众比率
-
方差
- 方差越大,样本数据的代表性越弱;
- 方差越小,样本数据越集中
-
离散系数
- 离散系数计算公式:$$\frac{\sigma}{\mu}$$
- 离散系数越大,代表样本越分散
-
-
总体方差 与 样本方差
-
离散系数又称变异系数,是统计学当中的常用统计指标,主要用于比较不同水平的变量数列的离散程度及平均数的代表性。
-
分布形态的描述:偏态、峰态
- 偏态系数小于0,左偏 ; 偏态系数大于0,右偏
3. 统计分布(占比 3%)
两点分布、二项分布、正态分布、t分布、T 分布、F 分布 - 【熟知】
- Z统计量和t统计量常常用于均值和比例的检验,卡方统计量则用于方差的检验
对于假设检验的相关选择:
4.相关分析(占比 2%)
相关分析的描述:散点图、相关分析的类型相关关系的度量:相关系数 - 【熟识】
- 相关分析的描述:散点图、相关分析的类型相关关系的度量:相关系数
Be curious. Read widely. Try new things. What people call intelligence just boils down to curiosity. ― Aaron Swartz