(七)抽样分布

如果给出正态分布总体的均值和标准偏差,我们就能通过计算出小于或大于任何值的百分比,将该值与总体中剩余的值对比,那对于样本呢,我们如何将总体中的特定样本与其他样本相比较?

    □ 通过算出该样本的均值
    □ 通过算出总体中其他样本的均值
    □ 通过将该样本的均值与其他样本的均值进行对比

所有选项都正,之前我们已经了解到中心值可以描述一组数据,如果我们要对比样本,我们可以对比该样本的中心值具体来说即均值。

举一个简单的例子,模拟具有多个样本的总体

假设你在拉斯维加斯赌博,玩的赌博游戏是掷四面体骰子,你需要掷两次,然后取平均值,要赢的话,平均值必须至少为 3,你的两次投掷结果平均值至少为 3 的概率是多少?

我们投掷骰子的话 会得到 1、2、3 或 4,均值是多少?

1+2+3+4=10,10/4= 2.5,所以均值是 2.5,用 μ 表示,这叫做期望值。虽然我们不会掷出 2.5,因为这是不可能的,但是 2.5 是总体的均值,如果我们从该总体中取出某个样本,期望值约为 2.5。

提醒下,如果我们要赢得这场赌博游戏,我们的平均值就必须至少为 3,我们来看看投掷两次骰子的话,所有可能的结果会是多少,可能是 12,均值则是 1.5;者可能是 11,均值则是 1;或者可能是 34
均值则是 3.5;有各种可能性,这些类似于我们在总体中的样本,在前面提到的三次投掷中,我们只赢了一次,因为只有一次的平均值等于或大于 3,们可以从该总体中选择多少种可能的组合,即样本量为 2 的情况。

我们可以获得 16 个样本量为 2 的样本,可能是下面的任意组合,算出每个样本的均值

 

样本均值的均值是多少?也就是说,如果我们投掷四面体骰子两次,平均结果预计会是多少?这就是样本均值的均值。

如果我们将这些都相加的话 1+1.5+2+2.5…一直加到 4,得出样本均值的均值是 2.5 我们用大写的 M 表示。

现在请将样本均值复制粘贴到Wolfram Alpha网站(http://www.wolframalpha.com/),然后点击此图标,它就会分析你在此处输入的所有数据,在我们的示例中,即所有样本量为 2 的所有可能样本的均值。

我们来看看可视化均值频率的直方图,这张图将样本均值的分布可视化叫做抽样分布。该抽样分布的形状会如何?

    □ 均匀分布
    □ 双峰分布
    □ 正态分布
    □ 偏斜分布

是正态分布 这并不是巧合,从下图可以看出,频率最高的均值是 2.5,这个直方图可能不太好理解,因为它是离散的,但是再去看看样本均值,会发现有四个样本的均值是 2.5,理想情况下 2.5 应该位于正中心位置,但是会发现样本均值很难达到 1 或 4。

那么两次投掷的平均值大于等于 3 的概率是多少?

可以看到有三个样本量为 2 的样本平均值为 3,两个样本量为 2 的样本平均值为 3.5,一个样本量为 2 的样本平均值为 43+2+1=6,再除以总数即 16,得出概率为 6/16=0.375
View Code

 我们可以轻松地算出离散样本的概率,例如这个离散总体中的离散样本,但是在现实生活中,总体超大时该怎么办?我们不可能计算出每个样本量为 n 的样本的均值,即使能够算出,我们也不想去计算,即使总体大小只有 4,样本量也达到了 16 个,如果总体大小是 3.5 亿呢?现实中经常会这么大,我们已经发现样本均值是正态分布的,我们知道所有这些样本均值的均值是总体均值,注意,这里的总体均值是 2.5, 所有可能的样本均值的均值也是 2.5,如果给出某个随机样本,我们算出它的均值,我们该如何判断该均值位于这一样本均值分布的何处?

    □ 总体数量
    □ 样本均值分布的标准偏差
    □ 可能的样本的总数

我们需要知道该分布的均值和标准偏差。

如果总体大小为 3.5 亿,我们该如何算出样本均值分布的标准偏差?我们从已知的样本示例信息着手,我们来计算下总体标准偏差 σ,然后计算出所有样本均值的标准偏差,我们将其称为 SE,请算出该总体的标准偏差及所有样本均值的标准偏差,样本量为 2。

我们已经算出总体参数和样本均值分布的参数,你认为总体的标准偏差与样本均值分布的标准偏差之间有联系吗?

总体标准偏差 σ 与所有样本均值的标准偏差之比是多少?也就是说 σ/SE 等于多少?

1.118034/0.790569=1.414214

这个数值表示的是 2 的平方根,而 2 是我们的样本量。

刚刚已经看到,总体标准偏差除以样本均值分布(亦称为抽样分布)的标准偏差等于样本量的平方根。

样本均值分布的标准偏差 SE=σ/√n ̄。

对于均值分布,其中每个均值都是样本量为 n 的均值,该分布的标准偏差就等于总体标准偏差除以平方根 n,这就叫做中心极限定理

标准偏差等于总体标准偏差除以样本量的平方根,我们一直都叫它 SE,因为它就是标准误差

再来看一个示例

Klout分数是唯一衡量你在互联网上,主要是社交媒体上的影响力的数据,以 1100 分的范围为每个人在互联网上的影响力进行打分,它是唯一可以用来衡量线上名声的分数,即用来衡量影响力的分数,Klout 分数是根据
你在各种社交网络上的数据计算的,包括 Twitter Facebook 和 LinkedIn 对于每种社交网络,会收集大约 100 个数据信号 例如你的每条推文被转发的数量,你在 Facebook 上的帖子获赞的次数等等,会针对每个人考
100 种数据信号,每天会对 4 亿以上的用户打分,Klout 分数遵循的是双峰分布,有一些用户会在峰值的这一侧,分数在 4060 之间,这些用户会发布一些高质量的内容,还有一部分用户在另一侧,他们是这些内容
的消费者,如果绘制出这些分数分布图,从这一侧到这一侧的用户在每个分数区间内的数量,这是 0 分,这是 99 分 y 轴表示的是这些区间内的用户数,你可以看到一个非常理想的双峰分布,平均 Klout 分数要比中位数低
,因为相对来说,分数更低的用户更多,他们拉低了平均值,对于这种分布,观察中位数更合理,分数达到 40 分实际上已经很不错了, 表明在社交媒体上很有影响力了。

我们首先分析下该数据,这将是我们到目前为止研究的规模最大的数据集,请打开 Klout 分数表格并计算均值和标准偏差,请将其当做总体而不是样本。从网盘下载数据

http://pan.baidu.com/s/1bUpiou

下图就是 Klout 数据的分布情况 可以看出是双峰的,均值大概为 37.72

假设我们能够取出所有样本量为 35 的可能样本,并计算每个样本的均值,然后绘制出样本均值的分布图,该分布的均值会是多少?

均值应该和总体均值差不多,所以约为 37.72。

该分布的标准偏差是多少呢?

2.71
标准偏差就等于总体标准偏差除以 n 的平方根,n 是指每个样本的样本量,也就等于 16.04/√35 ̄ 约等于 2.71 
View Code

假设我们查看了 35 位使用 Bieber Twitter 应用的用户的 Klout 分数,每当 Justin Bieber 发了任何推文,该应用都会自动转推,如果你不知道 tweet 是什么的话,介绍下 tweet 是人们在社交网站 Twitter 上发布的消息,Klout 分数在一定程度上依赖着人们在 Twitter 上的活动状态,假设这些人的平均 Klout 分数是 40 分,对于其他样本量为 35 的样本的均值分布,该均值会位于何处?已经算出了该分布的标准偏差是 2.71,那么该均值会高出该分布的均值多少个标准偏差?

0.84 
40-37.72/2.71=0.84,刚刚用抽样分布的均值和标准偏差,算出了这个特定样本的 z 值,注意,抽样分布的标准偏差叫做标准误差
View Code

随机抽取一个样本量为 35 均值至少为 40 的样本的概率是多少?提示下,请使用 z 表格 https://s3.amazonaws.com/udacity-hosted-downloads/ZTable.jpg

0.2

我们知道了 z 值,所以可以通过 z 表格找到获得任何小于该 z 值的值对应的概率,Z值为0.84时获得均值小于 40 的样本的概率是 0.7995,所以均值大于 40 的概率是 1-0.7995,结果大概只有 0.2,表明不太可能从整个 Klout 总体中随机抽取一个样本,均值会是 40。
如果这表明不是偶然选择的情况,那么有可能是 Bieber Twitter 这款软件在捣鬼,这款软件会自动转推 Justin Bieber 的推文,可能提高了这些人的 Klout 分数。
View Code

 

posted @ 2017-09-27 10:17  扎心了,老铁  阅读(3640)  评论(1编辑  收藏  举报