变异系数(离散系数)

事件还原

        在一次数据清洗过程中,需要将多方数据库进行整合,将各类数据分别由不同的小组去处理,开始需要一个指标来衡量各类数据整合的契合度,也就是离散程度,所以一开始采用了标准差来衡量;
        后来又需要将各类数据的清洗情况做一个排名,因为各类数据的数据量不同,量大的方差也大,没办法横向比较,想到可以用方差除以平均数来消除数据量的影响,后来在网上查到这个公式叫变异系数,也叫离散系数,所以记录下来以免忘记;
        书到用时方恨少,早知道这个公式直接拿来用就行,就不用费脑筋了;

        以下内容来自百度;

概念

       在概率论和统计学中,变异系数,又称“离散系数”(英文:coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比:
       变异系数(coefficient of variation)只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率或单位风险。
       变异系数只对由比率标量计算出来的数值有意义。举例来说,对于一个气温的分布,使用开尔文或摄氏度来计算的话并不会改变标准差的值,但是温度的平均值会改变,因此使用不同的温标的话得出的变异系数是不同的。也就是说,使用区间标量得到的变异系数是没有意义的。

       一般来说,变量值平均水平高,其离散程度的测度值越大,反之越小。 
       变异系数是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位和(或)平均数不同时,比较其变异程度就不能采用         标准差,而需采用标准差与平均数的比值(相对值)来比较。标准差与平均数的比值称为变异系数,记为C·V。变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
       变异系数的计算公式为:变异系数 C·V =( 标准偏差 SD / 平均值Mean )× 100%
       在进行数据统计分析时,如果变异系数大于15%,则要考虑该数据可能不正常,应该剔除。

公式

C.V = (SD ÷ MN) × 100%

(标准偏差SD、平均值MN)

应用

优点
1、比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。
缺陷
1、当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。
2、变异系数无法发展出类似于均值的置信区间的工具。

应用场景
变异系数在概率论的许多分支中都有应用,比如说在更新理论、排队理论和可靠性理论中。在这些理论中,指数分布通常比正态分布更为常见。
由于指数分布的标准差等于其平均值,所以它的变异系数等于一。变异系数小于一的分布,比如爱尔朗分布称为低差别的,而变异系数大于一的分布,如超指数分布则被称为高差别的。

posted @ 2020-07-17 17:55  RAY_M  阅读(14709)  评论(0编辑  收藏  举报