统计学补习系列一之随机变量的数字特征

忙里偷闲，系统的回顾下统计学相关的知识，并将形成系列总结，第一次简单的总结下随机变量的数字特征。

随机变量的数字特征基本上分为三类：

1、度量变量分布的集中趋势：主要包括数学期望（均值），中位数，众数等。

2、度量变量分布的离散性：主要包括方差和标准差。

3、度量两个变量的相关性：主要包括协方差和相关系数。

先说第一类,因为是回顾，所以具体的每个度量的定义不再叙述，有必要的时候再简单的说一下。第一类是度量变量分布的集中趋势，但是究竟什么时候用哪个指标衡量变量的集中趋势呢，一般来说，定类变量使用众数，所谓定类变量就是说该变量表示的是类别。定序变量一般使用中位数，定序变量是指序号。定距变量一般使用均值或者中位数。

第二类是度量变量分布的离散性的数字特征，一般为：方差和标准差。方差被定义为随机变量对其均值的期望距离，通俗的说法就是距离的期望。方差较小说明变量的分布较为集中，反之则较为离散。接着就是标准差了，引出标准差是因为方差的量纲和变量不一样，刚好是变量量纲的平方，自然而然的就想到将方差开方，这就是标准差。同样是度量变量的离散程度的。

这里要多句嘴的是，衡量变量的离散程度的指标还有一些非主流的，不常用到但很重要的几个指标：

极差/全距：range=max(x)-min(x)

极差率：I=max(x)/min(x)

变异系数：CV=SD(x)/E(x)

基尼系数：该算法较复杂，但是大家应该都很熟悉，这个其实和新闻上常说的衡量贫富差距的基尼指数是一个东东。

泰尔系数：该系数的计算也较复杂，这里简单粘贴一些别处的：

泰尔熵标准(Theil’s entropy measure)或者泰尔指数（Theil index）作为衡量个人之间或者地区间收入差距（或者称不平等度）的指标，这一指数经常被使用。泰尔熵标准是由泰尔(Theil,1967)利用信息理论中的熵概念来计算收入不平等而得名。假设U是某一特定事件A将要发生的概率，P（A）=U。这个事件发生的信息量为E(U)肯定是U的减函数。用公式表达为：E(U)=log（1/u）。当有n个可能的事件1,2,…,n时，相应的概率假设分别为U1,U2,…,Un，Ui≥0，并且∑Ui=1。熵或期望信息量可被看作每一件的信息量与其相应概率乘积的总和: E(U)= ∑Uih(Ui)= ∑Ui log（1/Ui）显然,n种事件的概率Ui越趋近于(1/n)，熵也就越大。在物理学中，熵是衡量无序的标准。如果Ui被解释为属于第i单位的收入份额，E(U)就是一种反映收入分配差距不平等的尺度。收入越平均，E(U)就越大。如果绝对平均，也就是当每个Ui都等于(1/n)时，E(U)就达到其最大值logn。泰尔将logn—E(U)定义为不平等指数——也就是泰尔熵标准： T=logn—E(U)= ∑ui*lognui 用泰尔熵指数来衡量不平等的一个最大优点是，它可以衡量组内差距和组间差距对总差距的贡献。泰尔熵标准只是普通熵标准(generalized entropy measures)的一种特殊情况。当普通熵标准的指数C=0时，测量结果即为泰尔熵指数。取C=0的优势在于分析组内、组间差距对总差距的解释力时更加清楚。泰尔熵指数和基尼系数之间具有一定的互补性。基尼系数对中等收入水平的变化特别敏感。泰尔熵T指数对上层收入水平的变化很明显，而泰尔熵L和V指数对底层收入水平的变化敏感。

第三类为度量两个变量相关性的指标，一般为协方差和相关系数。先说协方差，协方差定义两个变量的相关程度，其定义为：

Cov(X,Y)=E(X*Y)-E(X)*E(Y)，协方差大于0表示两个变量正相关，等于0表示不相关，小于0则表示负相关。很容易可以发现，协方差表示的缺点，就是它的单位，发现协方差的值是与X,Y取值的单位有关的。使用起来很不方便，而且变量之间相关度没有办法进行比较，于是与单位无关的相关系数则应运而生，相关系数的定义为：ρ=Cov(X,Y)/(SD(X)*SD(Y))

最后说一下一个很古老的话题，相关与独立

相关是指两个随机变量之间的线性关联程度，独立是指两个变量之间的一般关联程度

若两个变量相互独立，其相关系数一定为0

若两个变量的相关系数为0，它们不一定独立

posted on 2011-08-22 20:32 xuq 阅读(887) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Life is short

统计学补习系列一之随机变量的数字特征

公告

导航