数据分析概况02:《深入浅出统计学》——基本统计量1
1.信息图形化:直方图,概率密度函数和累积分布函数
直方图用于显示分组数值型数据,直方图用于表示定量数据,矩形之间没有间隔,数值通过连续的数字标度表示,长方形的面积与频数成正比(当数据区间宽度各不相等时,每个长方形的宽度反映每个区间的宽度,长方形的高度反映区间的频数密度)。
概率密度分布函数(PDF):直方图归一化的结果。
累积分布函数(CDF):累积频数归一化的结果.(折线图)
2.集中趋势的量度——平均数(均值μ,中位数,众数)
平均数 | 计算方法 | 何时使用 |
均值μ | μ=∑X/n=∑fX/∑f |
在数据非常对称,且仅显示出一种趋势时使用。
均值对于异常值(极值)不敏感,但是对于抽样数据更加稳定。
|
中位数 | 按顺序排列数字,从最小排列到最大值;如果有奇数个数值,则中位数为位于中间的数值。如果有n个数,则中位数的位置为(n+1)/2;若果有偶数个数值,则将两个中间数相加,然后除以2.中间位置的算法是:(n+1)/2,两个中间数分别位于这个中间位置的两侧。 |
在数据非常对称,且仅显示出一种趋势时使用。
均值对于异常值(极值)不敏感,但是对于抽样数据更加稳定。
|
众数 | 频数最大的数值。众数可能不止一个。如果有一个以上的数值具有最大频数,则每一个这样的数值都是众数。如果数据看上去体现了多种趋势或多批数据,则为每批数据给出一个众数。 | 在遇到类别数据时使用。当数据可以分为两个或更多组时使用。 |
分散性:全距,四分位距等3.分散性与变异性
全距(极差):使用全距区分数据集,仅描述了数据的宽度,没有描述数据的分布形态.
四分位距:上四分位数-下四分位数,与全距相比,较少受到异常值。(下四分位数:n/4,若为整数,则取n/4这个位置和下个位置的中间,取这两个位置上的数值的平均值;若不为整数,则向上取整。上四分位数:3n/4,若为整数,则为3n/4这个位置和下个位置的中间,取这两个位置上的数值的平均值;若不为整数,向上取整。
用箱线图绘制各种“距”,显示数据的全距,四分位距以及中位数。
变异性:观察每个数值与均值的距离。越小与均值越接近。
平均距离:正负距离容易相互抵消。
方差:防止距离与距离之间相互抵消。
方差=∑(X-μ )2/n=∑(X-μ )(X-μ ) /n=∑x2/n-μ2
标准差(σ)=√方差
标准分:z=(x-μ)/σ
比较不同数据集中的数据,对不同环境下的相关数据进行比较,将这些数据集转换成更通用的分布形态(均值为0,标准差为1 ),同时确保基本形状不变。
异常值监测:异常值定义为偏离均值三个标准差(数值的标准分不在-3和3之间)的数值。