一数据的概括性度量

（1）集中趋势的度量

分类数据：众数

1. 一组数据中出现次数最多的变量值

2. 适合于数据量较多时使用

3. 不受极端值的影响

4. 一组数据可能没有众数或有几个众数

5. 主要用于分类数据，也可用于顺序数据和数值型数据

顺序数据：中位数和分位数

中位数：

1. 排序后处于中间位置上的值

2. 不受极端值的影响（重要）

3. 主要用于顺序数据，也可用数值型数据，但不能用于分类数据

四分位数：

1. 排序后处于25%和75%位置上的值

2. 不受极端值的影响

数值型数据：平均数

平均数(mean)：

1. 也称为均值

2. 集中趋势的最常用测度值

3. 一组数据的均衡点所在

3. 体现了数据的必然性特征

4. 易受极端值的影响

5. 有简单平均数和加权平均数之分

6. 根据总体数据计算的，称为平均数，记为μ；根据样本数据计算的，称为样本平均数，记为 x

离散程度的度量

分类数据：异众比率

顺序数据：四分位差

数值型数据：方差和标准差

相对离散程度：离散系数

（2）离散程度的度量

1. 数据分布的另一个重要特征

2. 反映各变量值远离其中心值的程度(离散程度)

3. 从另一个侧面说明了集中趋势测度值的代表程度

4. 不同类型的数据有不同的离散程度测度值

分类数据：异众比率

1. 对分类数据离散程度的测度

2. 非众数组的频数占总频数的比例

3. 计算公式为

顺序数据：四分位差

1. 对顺序数据离散程度的测度

2. 也称为内距或四分间距

3. 上四分位数与下四分位数之差 Qd = QU – QL

4. 反映了中间50%数据的离散程度

5. 不受极端值的影响

6. 用于衡量中位数的代表性

数值型数据：方差和标准差

1. 数据离散程度的最常用测度值

2. 反映了各变量值与均值的平均差异

3. 根据总体数据计算的，称为总体方差(标准差)，记为σ∧2(σ)；根据样本数据计算的，称为样本方差(标准差)，记为s∧2(s)

总体方差和标准差

样本方差和标准差

自由度

1. 自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差

2. 从字面涵义来看，自由度是指一组数据中可以自由取值的个数

3. 当样本数据的个数为n时，若样本平均数确定后，则附加给n个观测值的约束个数就是 1个，因此只有 n-1 个数据可以自由取值，其中必有一个数据不能自由取值

4. 按着这一逻辑，如果对n个观测值附加的约束个数为k个，自由度则为n-k

#1. 样本有3个数值，即x1=2，x2=4，x3=9，则 x = 5。 当 x = 5 确定后，x1，x2和x3有两个数据可以自由取 值，另一个则不能自由取值，比如x1=6，x2=7，那么 x3则必然取2，而不能取其他值 
#2. 为什么样本方差的自由度为什么是n-1呢？因为在计 算离差平方和时，必须先求出样本均值x ，而x则 是附件给离差平方和的一个约束，因此，计算离差 平方和时只有n-1个独立的观测值，而不是n个 
#3. 样本方差用自由度去除，其原因可从多方面解释， 从实际应用角度看，在抽样估计中，当用样本方差s2 去估计总体方差σ2时，它是σ2的无偏估计量

标准分数

1. 也称标准化值

2. 对某一个值在一组数据中相对位置的度量

3. 可用于判断一组数据是否有离群点(outlier)

4. 用于对变量的标准化处理

5. 计算公式为

经验法则（适用于数据对称分布）

约有68%的数据在平均数加减1个标准差的范围之内

约有95%的数据在平均数加减2个标准差的范围之内

约有99%的数据在平均数加减3个标准差的范围之内

切比雪夫不等式

1. 如果一组数据不是对称分布，经验法则就不再适用，这时可使用切比雪夫不等式，它对任何分布形状的数据都适用

2. 切比雪夫不等式提供的是“下界”，也就是 “所占比例至少是多少”

3. 对于任意分布形态的数据，根据切比雪夫不等式，至少有1-1/k2的数据落在平均数加减k 个标准差之内。其中k是大于1的任意值，但不一定是整数

 #对于k=2，3，4，该不等式的含义是 ：
#1. 至少有75%的数据落在平均数加减2个标准差的范围之内 
#2. 至少有89%的数据落在平均数加减3个标准差的范围之内 
#3. 至少有94%的数据落在平均数加减4个标准差的范围之内

相对离散程度：离散系数

1.标准差与其相应的均值之比

2.对数据相对离散程度的测度

3.消除了数据水平高低和计量单位的影响

4.用于对不同组别数据离散程度的比较

5.计算公式为

posted @ 2019-04-12 20:47 罗亚雄阅读(1007) 评论(0) 收藏举报

刷新页面返回顶部

罗亚雄

我见青山多妩媚，青山见我应如是。

一数据的概括性度量