医学统计学中,你为什么要用假设检验? (转载)

原文地址:

http://www.sohu.com/a/235663698_759117

 

 

 

 

 

文 / 杨贤俊

图 / 网络

很多伙伴喜欢写论文,或者被逼着写论文,但是大部分的论文都会涉及到实验数据。

这些数据如何处理,就要涉及到医学统计学的运用了。

但是统计学检验的方法很多,t检验、秩和检验、χ2检验等等,千奇百怪,你怎么选?怎么用?

其实这些检验,都是基于假设检验。所谓“一叶而知秋”,说的就是假设检验。

为什么要用假设检验呢?

如果我们要比较两个人体重:

很简单,把他们都称一下,胖瘦自知。

甲同学70kg

乙同学72kg

如果我们要比较两个班同学的体重:

也很简单,把他们都称一下,胖瘦自知。

一班同学平均73kg

二班同学平均74kg

如果我们要比较两个城市乃至两个国家或地区的体重:

也很简单 没那么容易了。一下子来了几百万几千万人,你还能够把每个人都称一下吗?

经费不够,时间不够,而且不可能每个人都愿意来配合你称一下,特别是有些女生……

所以这样做不现实。

A市体重

B市体重

于是,统计学里面就用一种聪明的偷懒的方法来比较,那就是抽样。

我们可以从两个城市中拿出两个样本,比如每个城市都随机抽取100个人,分别对比他们的体重。然后使用样本对比的结果去推断和估计总体对比的结果。也是说,假设检验就是用样本来推断总体。

抽样的思想,就是“一花一世界,一叶一菩提”。如果样本量足够,总体的特性就会完全在样本中表现出来,达到管中规豹的效果。

然而,这里存在一个疑问:样本和样本对比的结果,与总体和总体对比的结果,两个结果是否吻合呢?前者能不能代表后者?

等我们理解了假设检验的原理和思想之后,你就会明白。

什么是假设检验?

举个例子来说明假设检验的思想:

假如有一天你带着我去澳门游玩,我们来到了赌场,你说技痒,想去玩几把。于是我忐忑地跟着你上了牌桌。老板问你想玩什么,你说想玩掷硬币。老板面不改色地从裤兜掏出一枚硬币给你,并规定正面向上你就赢,反之就输。于是你故作坚强的开始了赌博。

你第一次正面,无可厚非,这就是运气。

但第二次也是正面,接着第三、四……直到第十次都是正面,一直赢,那你觉得老板会放过你吗?你说你运气好呀,但他肯定认为你在出老千!

为什么老板会觉得你在出老千?

因为,不仅是老板,连我都认为你只是个凡人。

你只是个凡人

你不是赌神

请记得这句话“你只是个凡人”。这句话对于理解假设检验的思想非常重要!

逻辑是这样的:基于我们的理解,你只是个凡人,不是老千。而凡人的输赢是五五开的。

第一把正面的概率为50%,这个概率很高,凡人做得到。

第二把还是正面的概率为25%,直到第10把还是为正面的概率是0.0976%,这个概率就很低,凡人几乎做不到。

如果你到了第10把都是正面,那么这个时候老板不得不重新考虑对你的认知了。

因为如果不是老千,你要做到连续10次都掷出正面,这是不可能的。

所以他不得不怀疑自己最初假设的正确性。

所以,他推翻了自己的假设:你不是凡人,你就是老千!这就是一个反证法的过程。

这就是假设检验的基本思想。先有假设,才有检验。检验都是在假设的条件下进行的。

具体怎么检验?

一般就是三步走:

第一步:先假定两个城市的体重是相等的。(当个和事佬,先安抚情绪)

第二步:调查、分析,计算P值。(用事实说话)

第三步:得出结论。(用反证法给出结果)

1 假设:A市体重=B市体重。

2 检验:计算“两个样本中的体重都相等”这件事情发生的概率P.

如果“A市体重=B市体重”,那么在两个城市中各自抽出的这100个人,他们的体重全部相等的概率应该会很大。即使稍微有几个人不相等,那也是属于抽样误差的范围内。所以得到的推断结果如下。

3 结果:概率P值大,我们有理由相信假设成立,也就是A市体重=B市体重。

如果P值很小(一般认为P<0.05),也就是,“两个样本中的体重都相等”这个现象是个小概率事件,在生活中几乎不可能出现(就像你每次都赢钱一样),所以推翻原假设。于是有理由说A市人均体重与B市人均体重不相等。

到了这个时候,你就可以理直气壮的对一直在耳边嚷嚷不休的AB两帮人说:经过周密严禁的计算和论证,我可以很负责任的告诉你们,你们的体重不一样!

统计学主要作用有两种,一种是统计描述,一种是统计推断。

统计推断,主要就是从样本推断总体。

假如你要比较两种清洗方法对器械的清洗效果,那么你就要用这两种方法对全世界从古至今的所有器械进行清洗,得到了所有的数据之后,你才能说哪种方法效果好。

但这是不可能完成的。

所以,你就需要从样本推断总体,需要统计推断,需要假设检验。

假设检验的方法很多,针对不同的数据类型或者科研目的,可以采用不同的统计学方法。据我所知,CSSD的论文中最常用的就是χ2检验。如果您感兴趣,那么下一期,我们就配合着SPSS统计软件聊一聊这个卡方检验,怎么样?

 

 

 

 

 

 

 

=================================================================

注:(以下是个人观点,不属于原文内容)

个人感觉统计学中的假设检验是已知整体数据的模型,即总体的概率分布模型,但是有可能对模型具体参数并不是确定,这时候我们先假设整体分布的参数为某值然后做一次抽样,再用抽样的数据去评估整体分布,如果抽样的数据的P值过小(一般为小于5%),我们认为这是一个小概率事件,根据统计学中的原理我们可以认定在一次抽样中小概率事件是不会发生的,于是否定最初的对整体分布的参数假设。

 

如原文中的例子,在投掷硬币时我们假设硬币的正反面发生的概率为50%(整体的分布是服从二项伯努利分布的,不过事件的发生概率具体为多少是未知的), 这时我们做一次抽样,这时候的抽样是一次性连续投掷10次,如果整体的假设是正确的话这次抽样发生的概率(连续10次都是正面的概率)为 0.0976%  , 显然这次抽样发生的概率为小概率事件, 由此我们判断最先对整体的假设估计是错误的。

 

 

又如第二个例子中,我们是已知不同城市的人们的体重服从什么分布(一般是认为服从高斯分布或是其他的什么分布),这时候我们需要探知的是这两个城市的体重分布均值是否相等,  即两个城市人们体重分布的均值是不知道的,  那么我们先假设两个城市人们的体重分布是相等的,然后做一次抽样(即,分别对两个城市随机的取出同等数目的人们体重来求均值),根据抽样的结果(即,两个城市体重抽样的均值间的数量关系) 来判断原始假设成立的情况下抽样出的结果发生的概率为多少,如果是小概率事件则否定原始假设。

 

posted on 2018-12-17 14:16  Angry_Panda  阅读(1114)  评论(0编辑  收藏  举报

导航