经济普查资料开发应用的基本方法及常用的统计分析方法 - 张进洁

最近在思考怎样使用经普数据，进行分析并做一些有意义的研究，正好在国家统计局的网站上看到了第二次经普资料的开发培训教材，就转了一篇关于统计分析基本方法的文章。

经济普查资料开发应用的基本方法

全国经济普查取得了大量丰富、全面的统计资料，要将这些资料的数据信息转化为决策信息，更好地为各级政府及企业决策与管理提供优质的服务，就必须对这些普查资料进行分析研究。在经济普查资料分析研究过程中，熟练地掌握并灵活运用各种科学的分析方法，可以达到事半功倍的效果。本章简要介绍几种常用的统计分析方法。

第一节常规分析方法

本节介绍几种常用的、比较简便的分析方法。这些方法是从统计分析方法论的角度出发，而不对具体方法作详述。其目的在于使统计报告的写作者，在确定选题之后，能够依据这些常用的、比较简便的方法，迅速抓住事物的基本特征及本质。

一、分组分析法

统计分组，是根据统计研究的目的，按照一定的标志将总体划分为若干不同的部分或组的一种统计方法。其目的是把总体中具有不同性质的单位区分开，把性质相同的单位合并在一起，保持各组内统计资料的一致性和组与组之间资料的差异性，以便进一步运用各种统计方法研究现象的数量表现和数量关系。

正确选择分组标志是进行统计分组的前提，在特定的研究目的下选择合适的分组标志对于达到统计研究的目的至关重要。因此，在确定统计分组指标时，应根据研究的目的选择那些最能反映现象本质特征、有实际意义的分组标志。通过分组应达到以下目的：第一，划分现象的类型；第二，反映现象的内部结构；第三，分析现象之间的依存关系。

经济普查资料的分组主要有两类：一是按反映单位属性的品质标志分组；二是按普查的数量标志分组。在经济普查中，可进行大量的品质标志和数量标志分组。按品质标志分组主要有：单位类别、地区、行业、登记注册类型、隶属关系、控股情况、开业时间、营业状态，以及工业企业规模类型、限额批发零售住宿餐饮企业等。按数量标志分组主要有：从业人员数、企业实收资本、固定资产、全年营业收入(或主营业务收入)、利润、财务指标、企业产值、产品销售额等生产指标等。

将若干个有密切联系的分组结合起来，从不同角度全面地反映总体内部构成。在经济品质的分组体系中，既有品质标志分组，也有数量标志分组，既有平行分组，也有复合分组。经济普查数据提供了多种分组加工的可能，应当根据分析研究的目的具体确定。

二、对比分析法

对比分析法也称比较分析法，是把客观事物加以比较，以达到认识事物的本质和规律并做出正确的评价。

对比分析法通常是把两个相互联系的指标数据进行比较，从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢，以及各种关系是否协调。

按比较对象内容范围不同，可分为单项比较和综合比较(综合评价)。单项比较是指比较某种总体现象某一方面、某一局部，可以是单独一个统计指标，也可以反映某一方面、某一局部的若干指标将不同的分组，总体进行对比分析。综合比较是指对总体或若干方面的全面评价比较。

按比较时间状况不同，可分为横向对比和纵向对比。横向对比，是通过对国家间、地区间、行业间、经济类型间、隶属关系间、不同单位间同一时间有关指标的对比分析，从中发现问题，找出差距。而纵向对比是通过对同一指标在不同时间状况的对比，以反映其动态发展变化情况。

在进行对比分析时，选择合适的对比标准是十分关键的。对比标准选择的合适，才能做出客观的评价，选择不合适，评价可能得出错误的结论。另外，运用对比分析法时，一定要注意同质性事物的可比性，不得把不同质的事物放在一起对比。所谓同质性，就是对比事物的性质是否相同，指标的口径范围是否一致。在运用普查资料与历史资料对比时，更要注意资料的口径范围。

三、结构分析法

结构分析法是指被研究总体内各部分与整体进行对比的分析方法。通过分析，可以说明国民经济的生产、流通、分配和使用各环节以及各部门的比例关系，揭示各部分之间的相互联系及其变化规律。

结构相对指标的计算公式为：

结构相对指标＝总体某部分的数值／总体总量×100％

分析总体内各组成部分之间的相互关系，还可以计算比例相对指标，以反映总体中某一部分为另一部分的比率。其计算公式为：

比例相对指标＝总体中某一部分数值／总体中另一部分数值

在利用经济普查资料开展经济结构分析时，主要应对产业结构、所有制结构及行业内部结构、企业规模类型结构等进行分析研究，为经济结构调整提供资料。

结构分析法的优点是简单实用，但在实际经济分析时，考虑到我国经济体制目前正处在转轨时期，许多比例关系非常不稳定，因此分析比例结构时，不能就数字论数字，应联系多方面和多因素进行综合分析。

四、平均分析法

平均分析法是运用计算平均数的方法来反映同质总体在具体条件下的一般水平。平均指标可用于同一现象在不同地区、不同部门或单位间的对比，还可用于同一现象在不同时间的对比。平均分析法的主要作用有二：第一，利用平均指标对比同类现象在不同地区、不同行业，不同类型单位等之间的差异程度，比用总量指标对比更具有说服力。第二，利用平均指标对比某些经济现象在不同历史时期的变化，说明其发展趋势和规律。

常用的平均指标有算术平均数、调和平均数、几何平均数、众数和中位数等，其中最为常用的是算术平均数。算术平均数是用总体各单位标志值总和除以总体单位个数后所得结果，是非常重要的基础性指标。平均数是综合指标，它的特点是将总体内各单位的数量差异抽象化，它只能代表总体的一般水平，掩盖了在平均数后各单位的差异。

用平均数指标分析问题时必须与测算标志的变动度相结合。而标志变动度是反映总体单位之间在某数量标志上的差异大小。二者相结合才能对客观事物认识更全面、更深刻，并找出差距，查明造成差异的原因，进而提出解决问题的办法。一般来说，标志变动度越小，平均数指标的代表性越大。测度标志变动度主要有以下几种方法：全距与全距系数、平均差与平均差系数、标准差与标准差系数。

平均分析法要结合各种分组和指标对比来进行。比如分析不同地区的平均从业人数、固定资产量等；不同行业的平均营业收入、平均从业人数等。总之，对于所有普查数量指标都可以依据不同的分组用单位数来平均，进行对比、分析。

五、强度分析法

强度相对指标是两种有密切联系但性质不同的总量指标之比值，用以说明各种社会经济现象的强度、密度或普遍程度。

强度相对数＝某一总体总量／另一有联系的总体总量

经济普查资料结合一些其他指标如人口、土地面积等，可以产生很多强度指标。这些强度相对指标分析的内容通常涉及与人民日常生活息息相关的一些情况。比如：不同地区的每万人医院数量、学校数量、体育场馆数量，每百平方公里加油站数量、银行网点数量等。

强度分析若与对比分析结合起来，反映的问题就更加深入。比如通过对比分析不同地区的强度指标的结果，可以找出差距、寻求原因，提出改进目标等。

六、动态分析法

动态分析就是从数量方面研究社会经济现象的发展变化，并预见其未来发展变动趋势。首先，通过动态分析可以认识客观现象在发展过程中的一些基本特征，如平均发展水平、发展速度、增长量以及在内部结构上发生的一些变化等等；其次，与静态分析法相比，动态分析法用动态的眼光来观察经济现象的发生和发展过程，因而能较快发现经济运行中存在的问题苗头，并提出相应的对策建议；第三，在把握事物发展规律的基础上，动态分析法还可以对其未来的状态进行推测，从而为决策提供科学依据。

（一）发展水平

发展水平就是某一社会经济现象在发展过程中，各个时期或时点的具体数值。用以反映社会经济现象在各个时期或时点的总规模和总水平。它是用绝对数表示的。

（二）平均发展水平

平均发展水平是各时期或时点发展水平的平均数，用以表明某一时期内的平均发展情况，

（三）发展速度和增长速度

发展速度：发展速度是在发展水平的基础上计算的，是报告期发展水平与基期发展水平之比。

增长速度：增长速度是反映社会经济现象增长情况的相对指标，是报告期增长量和基期发展水平之比。它是发展速度中扣除基期发展水平（即它也等于发展速度减1）。

（四）平均发展速度和平均增长速度

平均发展速度是在发展速度的基础上计算的，表明某一社会经济现象在一个时期内逐期平均发展变化的程度。其计算公式为连续环比发展速度的几何平均，也即为定基发展速度的n次根，这里n为报告期与基期相距的期数。平均增长速度为平均发展速度减1，它表示逐期平均递增的速度。

在进行动态分析时，增长速度是衡量经济发展快慢的一个重要指标。速度并不是愈快愈好，关键在于有一个持续稳定的发展速度。在研究国民经济增长速度时，不仅要研究其总量增长，还要分析国民经济各产业的速度和均衡发展情况，研究增长速度是否在各投入要素合理组合的条件下运行，还应对国民经济增长速度波动变化进行分析。

七、弹性分析法

在进行统计分析时，经常需要对比分析经济中相关部门或变量，这些部门或变量在国民经济发展过程中具有密切的联系。利用弹性系数可对两个或两个以上相关经济变量之间的关系进行分析。弹性系数就是一个经济变量的增长率与另一个相关经济变量的增长率之间的比值，如一个经济变量增长1个百分点带动另一个相关经济变量增长的百分点数。弹性系数可分名义弹性系数和实际弹性系数，名义弹性系数为两个变量现价增长率之比，实际弹性系数为两个变量不变价增长率之比。例如，就业弹性系数、能源消费弹性系数、运输弹性系数分别用来反映经济增长与就业增长、能源消费增长、运输量增长之间的数量关系。

八、因素分析法

因素分析法是依据分析指标与其影响因素的关系，从数量上确定各因素对分析指标影响方向和影响程度的一种方法。因素分析法既可以全面分析各因素对某一经济指标的影响，又可以单独分析某个因素对经济指标的影响。

因素分析法一般有连锁因素分析法和并列因素分析法。连锁因素分析法是把影响某综合指标的若干因素，用乘积形式表示出来，以此计算出各因素的影响程度和影响的绝对额；并列因素分析法是把影响某综合指标分解为若干因素和的形式。

九、贡献率分析法

从生产角度看，产业部门贡献率是指各产业部门创造的增加值增量占GDP增量的比重，某个产业部门对经济增长的拉动是指经济增长率中有多少百分点是该产业拉动的。产业部门对经济增长的拉动是产业部门的贡献率乘以生产法GDP增长率。通常，人们对GDP的不变价增长率更为关注，因此，目前一般采用产业部门的不变价贡献率和拉动点数。

从需求角度看，各需求成分对经济增长的贡献率是指各需求成分的增量占GDP使用额增量之比。各需求成分对经济增长的拉动是指各需求成分的贡献率乘以GDP使用额增长率。

第二节综合评价方法

在分析研究中，常常要对不同地区和行业进行经济实力、经济效益、竞争力等方面的综合评价和比较研究，涉及到多项指标的对比，由于各个指标的变动方向和差异程度不一致，就会出现错综复杂的情况，难以做出准确的判断。因此必须采用多指标综合评价方法，对不同地区或行业进行总的评价。

综合评价是把多个描述被评价事物不同方面且量纲不同的统计指标，转化成无量纲的相对评价值,并进行反复权衡与比较，最终确定一个综合的代表性数值，来反映该事物整体水平或总能力。综合评价归纳起来一般需要如下基本步骤：

一、建立评价指标体系

综合评价是对多个评价指标的信息综合，评价结果是否客观、准确，首先依赖于被综合的对象——各评价指标的信息是否准确，是否全面，因而，科学地设立评价指标体系是综合评价的基础。

一般来说，综合评价选取评价指标要遵循四个原则：

一是目的性。选取指标要紧紧围绕综合评价的目的。

二是全面系统性。指标设置尽可能从不同侧面反映评价对象的全貌。要求指标之间联系紧密，不相重复，不能互相替代。组成的指标体系，既能综合起来反映总体的优劣，又能进行分解反映每项指标对总体的影响程度。

三是可操作性。所选定的评价指标是资料取得比较容易或可以加工计算的。要立足于普查资料，并尽可能搜集有关专业的统计资料。

四是稳定性。选取评价指标时应避免选取受偶然因素影响较大的指标。

二、对不同量纲的指标进行同度量处理

对不同量纲的指标进行同度量处理的本质就是把不能相加的指标值转化为可以汇总相加的综合指标值。由于各指标在内容、计量单位以及取值优劣标准(有的指标取值越大越好,有的越小越好，有的则要求适度)等方面均有所不同，为了能够对被评价对象进行综合评价，必须将各种指标值转化为可以综合的评价值，即做无量纲化处理。它是通过数学变换来消除原始变量(指标)量纲影响的方法。常用的无量纲化处理主要有：

相对化处理方法。其思路是先对评价指标确定一个标准值，然后计算各指标值与标准值之比。在计算时还要将“正指标”和“逆指标”区别对待。正指标是指实际值越大表现就越好的指标，此时指标值与标准值的比值作为原始指标无量纲化后的标准化值；逆指标是指标实际值越小越好的指标，此时原始指标无量纲化后的标准化值是指标值与标准值之比的倒数。标准值可以有多种选择，如计划数、历史最好水平、上期水平、经验或理论标准等，也可以根据研究目的来确定。

函数化处理方法。又称功效函数法或功效系数法。可按以下两个步骤进行：

第一步：对每个指标确定一对阈值，包括一个上限值（即满意值）和一个下限值（即不允许值）。上限值和下限值可根据实际情况确定，如上限值选择历史最好水平，预期目标，下限值选择历史最差水平或最低标准等，最简便的办法是使用参评单位中的最优值和最差值。

第二步：以上限值和下限值之差作为分母，实际值与下限值之差作为分子计算功效系数，其公式为：

式中：是第个指标的第j个观察值，是第个指标的第j个观察值的功效系数；后面的“×40+60”是对原来的功效系数的改进，是为了使在综合评价中计算结果在任何情况下都不等于0，并与人们习惯的百分制评分方法一致。

标准化处理方法。这种方法是将原始指标值转化为期望为0、方差为1的标准化数值，从而达到同度量效果。其具体步骤如下：

第一步：求出各变量（指标）的算术平均值和标准差；

第二步：进行标准化处理：

其中是第个指标的第j个观察值，是第个指标的第j个观察值无量纲化后的标准化值。

第三步：将逆指标前的正负号对调。

标准化处理方法的优点是不用人为地选择阈值，并且许多统计分析软件都带有标准化处理程序，使用起来十分方便。

三、指标权数的确定

由于评价的各项指标重要性和对评价对象所起的作用不同，不能同等地看待，必须赋予各项评价指标不同的权数。指标权数一般是根据指标的重要程度来确定的，重要程度则根据指标包容的信息量、指标的敏感性、指标的独立性来判断。

权数确定的方法有多种，比较常用的有专家评定法、二项系数加权法、层次分析法、主成份分析法等。其中，专家评定法又称德尔菲法，请若干专家根据有关资料各自独立地给出各指标的权数，汇总后计算均值和标准差反馈给专家再重新给出权数，经过多次反馈和修改最终确定比较切合实际的权数。

四、综合评价值的确定

确定综合评价值的方法实质上是在评价指标体系和评价指标权重确定的情况下，通过一定的公式将多个指标对事物不同方面的评价值综合在一起，以得到一个整体性的评价。

五、根据评价结果开展分析

评价的目的是为科学决策提供依据，因此在评价结果的基础上，需要结合各个被评价对象的政治、地理、社会以及自然资源等环境背景,进一步作深入分析。一般需要重点考虑以下几个方面：

（一）根据综合评价结果，寻找评价对象的主要薄弱环节，以便发现问题，并提出对策建议。

（二）对各评价指标分项展开深入分析。例如：在工业经济效益综合评价中，百元固定资产产值、净产值劳动生产率、百元产值的流动资金占用额等高或低的原因分析。

（三）进行地区、行业、企业间的对比分析，找出当前政策、管理等方面存在的弱点，提出改进方案和建议。

第三节回归分析方法

在社会经济领域，现象之间存在一定的联系，一种现象的变化往往依存于其他现象的变化。现象之间的相互联系大致可以区分为两种不同的类型：一是确定性的函数关系。在这种关系中，对于某一变量的每一个值，都有一个另一个变量的确定值与之对应；二是统计关系。这种关系反映的是尽管两个变量之间有密切的关系，但是它们之间的关系是一种非确定性关系。由于经济问题的复杂性，许多因素因为我们的认识及其他客观原因的限制，并没有包含在这种关系中。或者由于变量测量误差以及其他偶然因素的影响，使得变量的取值带有一定的随机性，因而当一个或一些变量取定值后，不能找到另一个变量的确定值与之对应。

回归分析就是研究一个变量（称为因变量或被解释变量）与若干个变量（称为自变量或解释变量）之间的统计关系。

一、回归模型的设定

线性回归模型在实际中使用最多。其基本形式是

（1）

其中，是K+1个未知参数，称为回归系数；称为被解释变量（因变量），是K个可以精确测量或控制的一般变量，称为自变量或解释变量；是随机误差项。

如果我们取得了关于及的组观测值（也称取得了容量为的样本），，线性回归模型可表示为

，（2）

回归分析的目的就是利用样本数据估计式（2）中的回归系数。为了估计这些系数，还需要对式（2）进行一些基本假定：

第一，解释变量是确定性变量而不是随机变量，而且解释变量之间不存在高度相关；

第二，随机误差项具有0均值、同方差，且是不相关的，即：

第三，随机误差项服从正态分布。

二、回归方程的估计及检验

回归方程的估计。回归分析的主要任务就是估计式（2）中的回归系数。如果模型满足上述的假设，我们可以用最小二乘法对模型的参数进行估计。将估计结果记为，利用它可以预测对应于每组的的值：

（3）

一般来说。这个预测值与实际值不会完全吻合。这两者之间的差

（4）

称为残差。残差对我们判断回归模型是否有效起着很重要的作用。

回归方程的显著性检验。在对实际经济问题的分析中，我们事先并不能断定被解释变量与解释变量之间确有线性关系。当我们用最小二乘法估计出了回归方程后，还需要对回归方程对样本数据的拟合程度进行评价，即对回归方程进行显著性检验。在统计上常用的方法有拟合优度检验和F检验。

回归系数的显著性检验。在多元线性回归中，回归方程显著（即拟合的较好）并不意味着每个解释变量对的影响都显著，因此就应从回归方程中剔除那些次要的、影响不显著的变量，重新建立回归方程。这时，就需要对回归系数进行显著性检验。

三、回归模型的有效性

在利用最小二乘法对回归方程进行估计时，需要满足一些相应的假设。然而，在实际中经常会遇到违背这些基本假设的情形。此时若仍然使用最小二乘法建立回归模型，得到的回归方程将不再是有效的。这里主要介绍出现多重共线性、异方差和序列相关问题。

多重共线性。多重共线性指多个解释变量之间存在相关性。当变量之间存在多重共线性时，利用最小二乘法估计的回归模型的参数是不可靠的，有时甚至出现参数的符号与实际相反的情形。常用的诊断多重共线性的方法包括判定系数法、条件数、方差膨胀因子等。一旦查明样本数据存在多重共线性，就应想办法加以消除。主要方法包括：剔除一些不重要的解释变量；增大样本容量；改变变量的定义形式；采用一些有偏估计方法如岭回归等。

异方差。在回归模型的基本假设中，我们假定不同样本点的随机误差项是同方差的。若这一条件不能得到满足，则称回归模型存在异方差。当存在异方差时，如果用普通最小二乘法估计回归系数，可能导致本来不显著的某些回归系数变成显著。常用的诊断异方差性的方法包括残差图分析法、等级相关系数法、Glejser检验法等。消除异方差的方法包括用加权最小二乘法估计、方差稳定化变换等。

序列相关。在利用最小二乘法估计回归模型时，我们总假定随机误差项是不相关的，即，。如果这一条件不满足，则称随机误差项存在序列相关。如果此时仍然使用最小二乘法来估计回归模型，则利用此模型进行预测和结构分析时带来较大的误差和错误的解释。诊断序列相关的方法包括图示检验法、Durbin-Watson检验等。消除序列相关的常用方法有差分法、广义最小二乘法等。