总体和样本

总体和分布
样本
- 样本、样品、样本量（样本容量）
- 抽样方法
从样本认识总体的图表方法
- 频数频率表
- 直方图
  - 直方图的优点
  - 直方图的缺点

总体和分布

在一个统计问题中，我们把研究对象的全体称为总体，其中每个成员称为个体。

比如：
研究学龄前儿童这个总体，每个儿童就是一个个体，
每个个体都有很多侧面，如身高、体重、血色素、性别等。
若我们进一步明确：研究对象是儿童的血色素(X）的大小，这样一来每个个体(儿童）对应一个数。如果撤开实际背景，那么总体就是一堆数，这堆数中有的出现的机会大，有的出现的机会小，因此可以用一个概率分布来描述这个总体。

从这个意义上讲，总体就是一个分布，其数量指标X就是服从这个分布的随机变量。因此，常常用随机变量的符号或分布的符号表示总体。比如我们说“从某总体中抽样”和“从某分布中抽样”是同一个意思。

总体还可以按个体数量分为有限总体和无限总体。
现实世界中大部分是有限总体。当个体个数很多以致不易数清时就把该总体看做无限总体。
有限总体将是抽样调查和抽样检验的研究对象。

样本

样本、样品、样本量（样本容量）

研究总体分布及其特征数有如下两种方法:

(1）普查
又称全数检查，即对总体中每个个体都进行检查或观察。
- 因普查费用高、时间长，不常使用，破坏性检查（如灯泡寿命试验）更不会使用。
- 只有在少数重要场合才会使用普查。
- 如我国规定每十年进行一次人口普查，期间九年中每年进行一次人口抽样调查。
(2）抽样
即从总体抽取若干个体进行检查或观察，用所获得的数据对总体进行统计推断。
- 由于抽样费用低、时间短，实际使用频繁。
- 没有抽样就没有统计学。

从总体中抽出的部分（多数场合是小部分）个体组成的集合称为样本
样本中所含的个体称为样品
样本中样品个数称为样本量或样本容量

由于抽样前不知道哪个个体被抽中，也不知道被抽中的个体的测量或试验结果，所以容量为 n 的样本可看做 n 维随机变量，用大写字母表示容量为 n 的样本

\[X_1，X_2，…，X_n \]

用小写字母表示其观察值，这就是我们常说的数据

\[x_1，x_2，…，x_n \]

一切可能观察值的全体 \(\chi =\left \{ \left ( x_1，x_2，…，x_n \right ) \right \}\) 称为n维样本空间。

有时为了方便起见，不区分大小写，样本及其观察值都用小写字母\(x_1，x_2，…，x_n\)表示。当需要区分时会加以说明，也可从上下文中识别。

样本来自总体，样本必含总体信息。

机会大的（概率密度值大的）地方被抽中的样品就多，而机会小的（概率密度值小的）地方被抽中的样品就少;
分布分散，样本也分散；分布集中，样本也相对集中；分布有偏，样本中多数样品也偏向一侧等。
样本是分布的影子，见下图。

抽样方法

为了使所抽取的样本能很好地反映总体，抽样方法的确定很重要。

最理想的抽样方法是简单随机抽样，它满足如下两个要求:

(1）随机性：即要求总体中每个个体都有同等的机会被选到样本中。说明样本中每个 \(X_i\) 的分布相同，均与总体 \(X\) 同分布。
(2）独立性：样本中每个个体的选取并不影响其他个体的选取。这意味着样本中每个个体 \(X_i\) 是相互独立的。

由简单随机抽样得到的样本称为简单随机样本，简称样本。
此时 \((X_1，X_2，…，X_n)\) 可以看成是相互独立且服从同一分布的随机变量，简称独立同分布样本。

如何才能获得简单随机样本呢? 下面例子中介绍的几种方法可供参考。
有一批灯泡600只，现要从中抽取6只做寿命试验，如何从600只灯泡中抽取这6只灯泡，使所得样本为简单随机样本?

方案一：设计一个随机试验
先对这批灯泡从 000 ~ 599 编号。然后在600张纸质与大小相同的纸片上依次写上 000 ~ 599，并把它们投入一个不透明的袋中，充分搅乱。最后不返回地抽出6张纸片，其上6个样本号(462,078,519,312,167,103)所组成的样本就是简单随机样本。
方案二：利用随机数表
用一大本随机数表中的一页（一般教材后面就有）。我们可以从该表任意位置开始读数。仍把灯泡编号 000 ~ 599，设从该表的第一行第一列开始，以三列为一个数，从上到下读出：537,633,358,634,982,026,645,850,585,358,039,626,084,...凡其值大于600的便跳过，如出现的数与前面重复也跳过，直到选出6个不超过600的不同数为止。现可将编号为537,358,026,585,039,084的6只灯泡取出测定其寿命。
方案三：可利用计算机产生6个 000 ~ 599 间的不同的随机整数
譬如产生的随机整数为80,568,341,107,57,166。取出这些编号所对应的灯泡进行试验，测定其寿命。
方案四：用扑克牌设计一个随机试验
从一副扑克牌中剔去大小王及K，Q，J各四张，余下40张牌不分花色都当数字用，其中A代表1，10代表0，其他数字直接引用。在这些准备下，可从40张牌中进行有放回地抽取3张。每次抽取前洗牌要充分，抽取要随机。约定第一张牌上的数字为个位数，第二张牌上的数字为十位数，第三张牌上的数字为百位数。若第三张牌上的数字为6～9，则作废重抽，直到第三张牌上的数字不超过5为止。如此得到的三位数（如239）就是第一个样本号，这样重复5次，取得6个样本号（如239,582,073,503,145,366)，选择对应编号的样品进行寿命试验。

这里介绍的多种抽样方法说明简单随机样本并不难获得，困难在于排除“人为干扰”，不要“怕麻烦”和“想偷懒”。很多事例表明，统计推断常在抽样阶段出问题。

从样本认识总体的图表方法

样本含有总体信息，但样本中的数据常显得杂乱无章，需要对样本进行整理和加工才能显示隐藏在数据背后的规律。

对样本进行整理与加工的方法有图表法和构造统计量。

这里将介绍几种常用的图表法，如频数频率表和直方图。

频数频率表

当样本量 n 较大时，把样本整理为分组样本可得频数频率表，它可按观察值大小显示出样本中数据的分布状况。

下面通过一个例子来详述整理过程:
光通量是灯泡亮度的质量特征。现有一批220伏25瓦白炽灯泡要测其光通量的分布，为此从中随机抽取120只，测得其光通量如表1.1.5所示。

为从这组数据中挖掘出有用信息，常对数据进行分组，获得频数频率表，即分组样本，具体操作如下:
（1）找出这组数据的最大值 \(x_{max}\) 与最小值 \(x_{min}\)，计算其差:

\[{\color{Red} R = x_{max}-x_{min}} \]

R 称为极差，也就是这组数据所在的范围。
在本例中 \(x_{max}\) = 226，\(x_{min}\) = 190，其极差为 R = 226 — 190 = 36。

（2）根据样本量 n 确定组数 k 。
经验表明，组数不宜过多，一般以5～20组较为适宜。可按表1.1.6选择组数。

在本例中，n=120，拟分13组。

（3）确定各组端点 \(a_o < a_1 < …< a_x\)，通常 \(a_o < x_{min}\)，\(a_k > x_{max}\)。
分组可以等间隔，也可以不等间隔，但等间隔用得较多。
在等间隔分组时，组距 \(d \approx\frac{R}{k}\) 。
在本例中，取 \(a_0 = 189.5，d=36/13\approx3\) ，则有

\[a_i = a_{i-1}+3, ~i=1,2,3,...,13 \]

\[a_{13}=a_0+13d=189.5+13\times 3=228.5 \]

（4）用唱票法统计落在每个区间 \((a_{i-1}，a_i](i=1，2，… ，k)\) 中的频数 \(n_i\) 与频率 \(f_i = n_i/n\)。
把它们按序归在一张表上就得到了频数频率表，见表1.1.7。

从该表可以看出样本中的数据在每个小区间上的频数 \(n_i\) 与频率 \(f_i\) 的分布状态。
大部分数据集中在 209 附近，201.5 ~ 216.5间含有 77.5% 的数据。
为了使这些信息直观地表示出来，可在频数频率表的基础上画出直方图。

直方图

根据上面的频数频率表可以得出，如下直方图：

在样本量较大的场合，直方图常是总体分布的影子。
如图1.1.6上的直方图中间高，两边低，左右基本对称。这很可能是“白炽灯泡光通量常是正态分布”的影子。

又如图1.1.7上的两个直方图是不对称的，是有偏的，其相应的总体可能是偏态的。
其中一个是右偏分布（见图1.1.7a)；另一个是左偏分布（见图1.1.7b)。

直方图的优点

直方图的优点是能把样本中的数据用图形表示出来。

直方图的缺点

直方图的缺点是不稳定，它依赖于分组，不同分组可能会得出不同的直方图。所以从直方图上可得总体分布的直观印象，但认定总体分布还需用其他统计方法。

参考：

[1]数理统计学(2版)/茆诗松等编著.北京：中国人民大学出版社，2016.1

posted @ 2021-05-10 20:14 言非阅读(2245) 评论(0) 收藏举报

刷新页面返回顶部

Loading

言非の博客

机器学习、复杂网络