第2章 数据的搜集
2.1 数据的来源
所有统计数据追踪其初始来源,都是来自调查或者实验。从使用者角度,统计数据主要来自两条渠道:一个是数据的间接来源——别人通过调查或者实验方式搜集的,使用者只是找到并加以利用它们,对此我们称为间接来源;另一个是通过自己调查或者实验活动,直接获得第一手数据,我们称为直接来源。
2.1.1 数据的间接来源
定义:如果与研究内容有关的信息已经存在,我们只是对原信息重新加工、整理,使之称为我们进行统计分析和使用的数据,我们把它称为间接来源的数据;
二手数据优缺点:
(1)优点:搜集比较容易,采集数据成本低,并且很快就能到手;作用广泛,除了分析所要研究的问题,这些资料还能提供研究问题的背景,帮助研究者更好的定义问题,寻找研究问题的思路和途径;
(2)缺点:研究者在使用二手资料要保持谨慎的态度。二手资料不是为某特定的研究问题而产生的,所以在回答所研究的问题方面可能有欠缺,例如:资料相关性不足,口径可能不一致,数据也许不准确,也许过时了等等,因此,在使用二手资料时,需要对二手资料进行评估。
评估二手资料包括内容:资料谁搜集的——可信度程度;为什么目的搜集?数据是怎么搜集的?什么时候搜集的?
2.1.2 数据的直接来源
通过调查方法获得的数据称为调查数据;调查数据通常对于社会现象而言的。
通过实验方法得到的数据称为实验数据;实验大多是对自然现象而言的。
2.2 调查数据
2.2.1概率抽样和非概率抽样
在数据采集阶段,统计学家要面临的一个关键问题是如何抽选出一个好的样本。好的样本是相对而言的,相对包括两方面的含义:一个含义是针对研究的问题而言的,因此进行什么样的抽样设计首先取决于研究目的;另一个含义是针对调查费用和估计精度的关系而言的。
使用抽样采集数据的具体方式有许多种,可以将这些不同的方式分为两类:概率抽样和非概率抽样;
1、概率抽样
定义:概率抽样又称为随机抽样,是指遵循随机抽样原则进行的抽样,总体中每一个单位都有一定的机会被选入样本。
特点:首先,抽样时是按一定的概率以随机原则抽取样本;随机原则:排除主管上有意识的抽取调查某单位,每个单位都有一定的概率被抽中,随机不等于随便,随便有主管人为的因素。
其次,每个单位被抽中的概率是已知的,或者说是可以计算的。
再次,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。
经常采用的概率抽样方式:
简单随机抽样:就是从包括总体N个单位的抽样框中随机的、一个个的抽取n个单位作为样本,每个单位的入样概率是相等的。
分层抽样:是将抽样单位按照某种特征或者某种规则划分为不同的层,然后从不同的层中独立、随机的抽取样本。
整群抽样:抽样时直接抽取群,然后对中选群中所有单位全部实施调查,这样的抽样方法称为整群抽样。
系统抽样:将总体中的所有单位按照一定的顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法为系统抽样。
多阶段抽样:采用类似于整群抽样的方法,首先抽取群,从选中的群中再抽取若干个单位进行调查,以此类推。
2、非概率抽样
定义:非概率抽样是相对于概率抽样而言的,指的是抽取样本时不时依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽取部分单位对其实施调查。
种类:
方便抽样。将方便样本的调查结果推广到总体是没有任何意义的。
判断抽样。指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有重点抽样、典型抽样、代表抽样。
自愿样本。自愿样本是被调查者自愿参加,成为样本的一分子,向调查人员提供有关信息。
滚雪球抽样。往往用于稀少群体的调查。先找一部分样本对象,调查完后,他们会推荐其它调查对象,因此被推荐的被调查者与推荐他们的被调查者在众多方便存在相似部分。
配额抽样。配额抽样类似于概率抽样中的分层抽样。首先将总体所有单位按一定变量分为若干类,然后再每个类中采用方便抽样或者判别抽样的方式选取样本单位。
3、概率抽样与非概率抽样的比较
由于非概率抽样不是依据随机原则抽样本,样本统计量的分布是不确切的,因此不能使用样本的结果对总体相应的参数进行推断。如果调查的目标是用样本的调查结果对总体相应的参数进行估计,并计算估计误差,得到总体参数的置信区间,这时就不适合用非概率抽样。
2.2.2搜集数据的基本方法
1、自填式
2、面访式
3、电话式
4、观察式
第三节 实验数据
实验数据:是指在实验中,控制实验对象而搜集到的变量的数据;
实验组:是指随机抽选的实验对象的子集;
对照组:每个单位不接受实验组成员所接受的某种特别的处理;
第四节 数据的误差
数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异;数据的误差有两类:抽样误差和非抽样误差;
抽样误差:是由抽样的随机性引起的样本结果与总体真值之间的误差;抽样误差并不是针对某个具体样本的检测结果与总体真实结果的差异而言的,抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异;抽样误差与样本量的大小,以及总体的变异性有关;
浙公网安备 33010602011771号