计算频率、描述性统计、率的标准化(六)
- 计算频率
利用EXCEL有几种方式计算频率,这里只介绍直接利用公式和利用直方图计算频率。
1) 直接利用公式计算
在开始计算频数前,需确定每个划分区间的组距,通常利用全距/组数即可;
根据数据的最大、小值以及组距,结合实际情况确定每个划分区间的上下界,在具体的EXCEL操作过程中,将上界和下界各位一列,利用“填充”工具进行数值填充。(这里需注意的是,上界的确定=下界+组距-ε,ε为很小的值);
在频数一列中,利用frequentcy(A,B)函数计算每个区间的频数,其中A为源数据,B为下界指定的值,可利用CTRL+SHIFIT+ENTER一次性求出所有的频数,此时B为整个下界列。最终表如下:
(其中频数的输入公式为:=FREQUENCY(A1:M10,C20:C29))。
2) 直方图
计算频数可直接利用“数据分析”中的“直方图”进行计算。选项中的“柏拉图”是指按照频数进行降序后产生的直方图,若想查看原始直方图,可直接在图上右击,点击“选择数据”即可。
初次产生的直方图各个组间并非连续,可通过右击“设置数据系列格式”中“分类间距为无间距”即可,其余字体,填充颜色等等可具体润色。
通过直方图,可直接查看每个类的频数分布情况,这里需提醒的是,在直方图中,每个组对应的面积,而非高度代表频数,因此,当各类划分区间不同时,应按照面积对应频数的准则进行调整。
2. 描述性统计
利用“数据分析”工具中的“描述性统计”即可获得源数据的几个基本统计量;不过该工具要求需要分析的同类数据必须在同一列或者同一行。各个统计量的意义如下:
平均:源数据的均值,是最常用的平均值;
中位数:将源数据进行排列后,位于中间位置的数值;若源数据对称,则中位数和均值大致相同,当存在异常值时,中位数能更好地代表源数据。若异常值聚集在右边,曲线右部产生长尾,则均值向右位移,即均值>中位数;若异常值聚集在左边,曲线左部产生长尾,则均值向左边位移,均值<中位数。
众数:源数据中频数最多的数值,当源数据呈双峰或者多峰时,众数相比均数和中位数更有代表性。对于区间数据,只能采用众数为代表,当众数有多个时,不适合用众数描述源数据。
标准误差:为方差的平方根,代表数据的离散度,但标准误差具有数值意义,即数据源中的典型数据与均值的距离;
偏度:反映数据的频率分布是偏左(>0)、据中(=0)还是偏右(<0)。
峰度:反映数据的高峰是平阔峰(<0)、正态峰(=0)还是尖峭峰(>0)。
区域:为整个数据的全距。
3. 率的标准化
COUNTIF(数据范围,”计数条件”); %数据中满足计数条件的频数;
当需要对两个内部构成并不相同的数据集比较时,需要利用标准化法对率进行调整。
例:下表为A县和B县男性的患肝病情况,试比较两县的死亡率。
合计中死亡率利用SUMPRODCUT(D3:D8,E3:E8)即可。
根据表可看出,A县40岁以上的男性总数低于B县,40岁以下的高于B县;那么A的死亡率高于B县是否与此因素有关?通过率的标准化再次计算各县的死亡率。
首先将AB混合为一个新的整体,计算每个年龄段所占的比例,然后利用标准化后的百分比计算A县和B县的死亡率。
从上表中可看出,A死亡率反而低于B县死亡率。
posted on 2014-01-02 15:46 xiaofenfang 阅读(1523) 评论(0) 编辑 收藏 举报