数学 - 数理统计 - 第一章 绪论

1.1 基本概念

1.1.1 总体和样本

总体是由与所研究的问题有关的所有个体组成,样本是从总体中抽取的一部分个体。

若总体中个体的数目为有限个,则称为有限总体,否则称为无限总体

在统计研究中,人们所关心的不是总体内的个体的本身,而主要关心个体上的一项或多项数量指标,比如日光灯(个体)的寿命(个体上的数量指标)、零件的尺寸等。因此总体也可视为所有个体上的某种数量指标构成的集合,此时总体为一个数学对象,是数的集合

由于抽样过程的随机性,我们将个体上的数量指标视为随机变量(random variable),随机变量的分布即是该数量指标在总体中的分布。

例 1.1.1

假定 10000 件产品中废品数为 100 件,其余为正品,废品率为 0.01,定义随机变量 X

X={1,废品0,正品

可知随机变量 X 的分布为 01 分布,且 P(X=1)=0.01。此时特定个体上的数量指标就是 r.v.X 的观察值。

下面给出总体的数学定义。

定义 1.1.1 总体

一个统计问题所研究的对象的全体称为总体,数理统计学中,总体用一个随机变量(或向量)及其概率分布来描述。

若一个总体为 r.v.X,从该总体中抽取相互独立同分布的大小为 n 的样本 X1Xn,可将这些样本视为对 r.v.X 的观察值,并记为

X1,,Xni.i.dX

当个体上的数量指标不止一项时,用随机向量来表示总体。

例 1.1.2

研究某地区的小学生身体发育情况,人们主要关心其身高 X 和体重 Y 这两个数量指标。此时总体用二维随机向量 (X,Y) 或其联合分布函数 F(x,y) 表示。

1.1.2 样本空间和样本的两重性

(1) 样本空间

从总体中抽取一部分个体作为样本,设 X=(X1,,Xn) 是从总体中抽取的样本,定义样本空间。

定义 1.1.2 样本空间

样本 X=(X1,,Xn) 可能取值的全体,构成样本空间,记为 X

下面给出一个样本空间的例子。

例 1.1.3 打靶试验

每次打三发,考察中靶的环数。如样本 X=(5,1,9) 表示三次中靶分别中 5 环,1 环和 9 环。可得样本空间为

X={(x1,x2,x3):xi=0,1,,10,i=1,2,3}

注意到这个样本空间中元素是有限的,而一般样本空间为无限集。

(2) 样本两重性

样本两重性是说,样本既可看成具体的数,又可以视为随机变量(或向量)。

在实施抽样前,样本被看成随机变量(或向量);在实施抽样后,样本是具体的数值。

(3) 简单随机抽样

抽样的目的是通过取得的样本对总体分布中某些未知量做出推断,为使抽取的样本能很好地放映总体的信息,必须考虑抽样方法

最常用的抽样方法是简单随机抽样,它要求抽样过程满足下列条件:

  • 代表性。总体中的每个个体都有同等机会被抽入样本,这意味着样本中每个个体与所考察的总体具有相同分布。

  • 独立性。样本中每个个体取什么值不影响其他个体的取值,这意味着样本中每个个体都是相互独立的随机变量(或向量)。

由简单随机抽样获得的样本 X=(X1,,Xn) 称为简单随机样本。

定义 1.1.3 简单随机样本

设一总体 r.v.XX1Xn 为从总体 X 中抽取的容量为 n 的样本,若样本满足下列两个条件:

  • X1Xn 相互独立;

  • X1Xn 相同分布。

X1Xn 为简单随机样本,也称简单样本或随机样本。

在实际应用中,有放回抽样获得的样本是简单随机样本;当抽取样本数量在总体中所占比例较小时,可以把无放回抽样获得的样本视为简单随机样本。

1.1.3 样本分布

当样本被视为随机变量时,就有一定的概率分布,这个概率分布被称为样本分布。样本分布是样本所受随机性影响的最完整的描述。

例 1.1.4

一批产品有 N 件,其中废品 M 件,N 已知,M 未知。现在从中抽出 n 个检验废品的件数,用以估计 M 或废品率 p。抽样方式为有放回抽样。

Xi 表示第 i 次抽出的样本,令

Xi={1,第 i 次抽出的为废品0,第 i 次抽出的为正品

由于是有放回抽样,因此在每次抽样时,N 个产品中每个个体都以 1/N 的概率被抽中,此时有

P(Xi=1)=MN,P(Xi=0)=NMN

有简单随机样本的性质(独立同分布)可得样本分布

P(X1=x1,,Xn=xn)=P(X1=x1)P(Xn=xn)={(MN)k(NMN)nk,xi=k0,其余情形

即使抽样方式使用无放回抽样,当 n/N 很小时,上式描述的样本分布与真实的样本分布差别很小,因此仍然可把无放回抽样得到的样本视为有放回抽样得到的样本,即认为是简单随机样本。

1.1.4 统计推断

(1) 参数和参数空间

可以说,数理统计的一个统计模型就是一个样本分布,统计模型被样本分布完全决定。只有当样本分布的信息不全时才存在统计推断问题。

设样本 X1,X2,,Xni.i.dN(a,σ2),其中 aσ 未知。这种未知量,只能通过样本去估计。统计学上把出现在样本分布中的未知常数称为参数,这里 aσ 都是参数,这是可称 (a,sigma) 为参数向量。

在一些问题中参数虽未知,但根据参数的性质可给出参数取值的范围,参数取值的范围称为参数空间。比如 Θ={(a,σ):a>0,σ>0} 是一个参数空间。

(2) 样本分布族

样本分布既然包含未知参数,则可能的样本分布就不止一个,参数取不同值时得到不同的样本分布,这些样本分布构成了一个样本分布族。比如一个常见的样本分布族为

F={f(x;θΘ)}

其中 θ 是参数向量 (a,σ)Θ 是对应问题的参数空间。

更确切地说,统计模型就是样本分布族。样本分布族,连同其参数空间,完全确定了一个统计问题的范围。分布族越小,问题的确定度越高,意味着可以做出更精确和更可靠的结论。

(3) 统计推断

从总体中抽取一定大小的样本去推断总体的概率分布称为统计推断

数理统计的最终目的是用样本去推断总体,当样本分布完全已知时不存在任何统计推断问题。

  • 当样本分布形式已知,但含有未知参数时,统计推断的任务是确定未知参数的值,这种统计推断称为参数统计推断

  • 当样本分布形式未知时,统计推断的任务是通过样本对总体的分布做出推断,此时这种统计推断称为非参数统计推断

参数统计推断主要有两类问题:参数估计假设检验

posted on   Black_x  阅读(638)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示