Fork me on GitHub

统计抽样

统计抽样

名词解析

名词:

简单随机抽样(simple random sampling)

解释:

在进行抽样时不掺入任何人为因素 。母体的每一个体都有同等的机会被选中,且每次抽选与此次之前的历次抽选无关。在进行此方法时,通常将所观察的母体内每一个体,加以编号1-N,接着随机地从这N个号码中抽出我们想要的n个号码(即预定的样本数)。其次找出母体号码中与这n个随机号码相同的个体, 这就是选出的样本。

 

名词:

分层抽样(stratified sampling)

解释:

调查的母体,可依某衡量标准,区分成若干个不重复的子母体,我们称之为『层 』,且层与层之间有很大的变异性,层内的变异性较小。在区分不同层后,再从每一层中利用简单随机抽样抽出所须比例的样本数,将所得各层样本合起来即为样本。此处的比例就是该层的个体总数占母体的比例。

 

名词:

系统抽样(systematic sampling)

解释:

系统抽样基本上是只做一次简单随机抽样后,就采取依固定间隔数抽出一样本。一般而言,若母体为有限,可将母体依序编号1-N,假设欲选取n个样本,先决定区间间隔k,然后以简单随机抽样从1-k中选取一数,此数做为起点,依序每k个单位选取一样本。通常k取为最接近『N/n』的整数。

 

名词:

群集抽样(cluster sampling)

解释:

当母体的底册的搜集及编造极为困难或庞大,而在调查时又希望节省成本时,可采用此种抽样。群集抽样的方法就是将母体分成几个群集(或部落、区域),而群集间的变异小,群集内的变异大。再从这几个群集中抽出数个群集进行抽样或普查。有时群集抽样又称部落抽样、丛聚抽样。

 

生活中的实例

简单随机抽样
某公司举办尾牙餐会,会中并有抽奖活动,为了奖励员工这一年来的辛劳,公司提供一部汽车及若干家电作为抽奖用,与会的员工每人发给一张两头印有号码的摸彩券(两头的号码相同,且一半为存根联,一半为抽奖联),撕下其中的抽奖联后投入摸彩箱中,然后由董事长将之搅拌均匀,依序请公司各级主管抽出摸彩券,以决定家电与汽车的得奖人。这就是简单随机抽样。

 

简单随机抽样
简单随机抽样常用的作法之一,就是利用随机号码表。所谓『随机号码表』,就是依机率法则所编制,又称随机数表),使用方法就是选取其中的任几行或任几列,直到选出欲抽样的个数为止。所取成的样本便为随机样本(random sample)。 表1为随机号码表的其中一部份。其中由左至右,每遇一数字为一行; 由上至下,每遇一数字为一列。

29280 39655 18902 92531 90374 07109 26627 59587 84340 98351
20123 82082 55477 22059 43168 12903 13436 25523 21090 73449
66405 35287 33248 67657 07702 01474 66068 01125 59258 30138
97299 83419 13069 17826 76984 48906 10567 17829 00723 46700
83923 92076 98880 33942 46841 58731 36513 16681 88722 61984
11258 92175 94894 97606 11134 51941 43733 00514 06694 27706


表1. 随机随机数表

 

简单随机抽样
设某班有50位学生,欲从中选出5位学生参与『校长与同学座谈会』。首先我们将班上学生加以编号1~50,其次藉助表1的第1列,一次读取两个数字,则头9个『2位数字组』为

29 28 03 96 55 18 90 29 25

因96, 55, 90大于50,该号码的学生均不存在,又29出现两次,也只能选1个,所以选出号码为29, 28, 03, 18, 25的学生。

若藉助表1的第5列,同样一次读取两个数字,则头11个『2位数字组』为

83 92 39 20 76 98 88 03 39 42 46

因83, 92, 76, 98, 88大于50,该号码的学生均不存在,又39出现两次,也只能选1个,所以选出的号码为39, 20, 03, 42, 46的学生。

 

简单随机抽样
假设某校共有七辆交通车(分别编号1, 2, 3, 4, 5, 6, 7), 想从中选出三辆车做为参观工厂用,藉助表1的第2列,一次读取三个数字,以135表出动编号1、3、5号的校车,余类推。则前8个『3位数字组』为

201 238 208 255 477 220 594 316

只有316符合条件,即出动编号3、1、6号的校车。若藉助表1的第6行, 一次读3个数字, 则可选出217, 即出动编号2、1、7号的校车。

 

简单随机抽样-征兵抽签
美国1970年举办的首次越战征兵, 所有19到25岁的男性都是这次抽签的对象, 首先负责单位将1年366个日期(考虑闰年)分别放进一模一样的塑料球内,再放进箱子里。然后公开一个个抽出。最先被抽到的日期, 生日为那一天的人最先被征召, 然后就是在第2个抽到的日期出生的人,以此类推。

一些新闻记者注意到, 12月份出生的人似乎倾向较容易被先抽出。统计学家也指出这个倾向太强了。后来调查发现, 塑料球是一次装一个月份, 再放进箱子内, 又没混合均匀。 所以1月份的生日容易在底下, 而12月份的生日是最后装进去的, 容易在上面。

第二年, 美国国家标准局, 便请统计学家设计抽签程序。他们的设计很复杂: 先把1到365的数字(这回不考虑闰年)依随机随机数表决定的随机顺序放进塑料球中,然后把一年365个日期也依同样方式放进塑料球中。其次, 日期塑料球在依随机随机数表决定随机顺序放进滚筒里, 数字塑料球也利用同样方式放进另一滚筒里。两滚筒都滚动整整一小时。电视摄影机开机了, 一位贵宾把手伸入日期滚筒, 抽出9月16日;再把手伸入数字滚筒, 抽出139号。于是9月16日出生的人得到征兵序号139号。再从两个滚筒,抽出4月27日及征兵序号235。如此这般继续下去。虽然复杂, 但是是很随机的。

<数据源:郑惟厚译(1998) 统计, 让数字说话>

 

分层抽样
某高中共有2700位学生,欲从中抽取120位学生作为样本,设有1620位男生,1080位女生,若用简单随机抽样抽出120位学生,抽出的结果可能女生过多,或男生过多,甚至也可能抽出没有一个女生, 或没有一个男生。若是想调查全校学生的平均身高,则男女之间的差异就很大,若选取过多女生,这样就会影响到最后调查的结果。因此最好的方式就是采用分层抽样,按男女的比列3:2来选取。在男生部分抽取120×0.6=72位,女生部分抽取120×0.4=48位,其次在男女生中,利用简单随机抽样分别抽出72人, 48人, 此120人便构成我们要的样本。

 

分层抽样
交通部观光局为了解周休二日制度实施后, 对国人国内旅游的影响及改变, 于87年首次办理『周休二日实施对国内旅游的影响调查』, 以提供政府及旅游相关业者参考之依据。

以各县市之住宅电话号码簿做为抽样清册, 即抽样母体之来源。抽样方式采分层抽样法:台湾地区依北、中、南、东分为四层,各层依照层内户数占台湾省总户数的比例分配样本数;层内各县市再依照其户数比例分配其样本。预计样本数1,500人。以电话访问调查, 居住在台湾地区之家庭住户内十二岁以上之国民, 且就读学校或服务单位已实施周休二日或隔周休二日者。<数据源:行政院主计处>

系统抽样
某制造灯泡的工厂,计划生产5000个灯泡,想从中抽取50个样本,以了解不良品的比例,若采取系统抽样,则依5000个灯泡生产的顺序,做为假想的编号,其次决定抽样区间k,k=5000/50 =100,然后从1至100中以简单随机抽样抽出一数,做为起始点,如抽出35,最后只要每生产第100个灯泡,便将该灯泡抽出,即生产顺序为35,135,235,335,…,4935的灯泡,就被抽出做为样本。

 

群集抽样
假设某公司想调查高雄市市民每月消费在甲产品的支出,计划在所有11个行政区中随机抽出4个行政区,然后再从被抽出的行政区中随机抽出一条路(街)(如遇街道跨区时,则仅调查属于该区的住户),然后普查该条路(街)的所有住户。这就是群集抽样。

posted @ 2017-01-03 22:06  stardsd  阅读(1084)  评论(0编辑  收藏  举报