数学 - 数理统计 - 第一章 绪论
1.1 基本概念
1.1.1 总体和样本
总体是由与所研究的问题有关的所有个体组成,样本是从总体中抽取的一部分个体。
若总体中个体的数目为有限个,则称为有限总体,否则称为无限总体。
在统计研究中,人们所关心的不是总体内的个体的本身,而主要关心个体上的一项或多项数量指标,比如日光灯(个体)的寿命(个体上的数量指标)、零件的尺寸等。因此总体也可视为所有个体上的某种数量指标构成的集合,此时总体为一个数学对象,是数的集合。
由于抽样过程的随机性,我们将个体上的数量指标视为随机变量(random variable),随机变量的分布即是该数量指标在总体中的分布。
例 1.1.1
假定 件产品中废品数为 件,其余为正品,废品率为 ,定义随机变量 。
可知随机变量 的分布为 分布,且 。此时特定个体上的数量指标就是 的观察值。
下面给出总体的数学定义。
定义 1.1.1 总体
一个统计问题所研究的对象的全体称为总体,数理统计学中,总体用一个随机变量(或向量)及其概率分布来描述。
若一个总体为 ,从该总体中抽取相互独立同分布的大小为 的样本 ,,,可将这些样本视为对 的观察值,并记为
当个体上的数量指标不止一项时,用随机向量来表示总体。
例 1.1.2
研究某地区的小学生身体发育情况,人们主要关心其身高 和体重 这两个数量指标。此时总体用二维随机向量 或其联合分布函数 表示。
1.1.2 样本空间和样本的两重性
(1) 样本空间
从总体中抽取一部分个体作为样本,设 是从总体中抽取的样本,定义样本空间。
定义 1.1.2 样本空间
样本 可能取值的全体,构成样本空间,记为 。
下面给出一个样本空间的例子。
例 1.1.3 打靶试验
每次打三发,考察中靶的环数。如样本 表示三次中靶分别中 环, 环和 环。可得样本空间为
注意到这个样本空间中元素是有限的,而一般样本空间为无限集。
(2) 样本两重性
样本两重性是说,样本既可看成具体的数,又可以视为随机变量(或向量)。
在实施抽样前,样本被看成随机变量(或向量);在实施抽样后,样本是具体的数值。
(3) 简单随机抽样
抽样的目的是通过取得的样本对总体分布中某些未知量做出推断,为使抽取的样本能很好地放映总体的信息,必须考虑抽样方法。
最常用的抽样方法是简单随机抽样,它要求抽样过程满足下列条件:
-
代表性。总体中的每个个体都有同等机会被抽入样本,这意味着样本中每个个体与所考察的总体具有相同分布。
-
独立性。样本中每个个体取什么值不影响其他个体的取值,这意味着样本中每个个体都是相互独立的随机变量(或向量)。
由简单随机抽样获得的样本 称为简单随机样本。
定义 1.1.3 简单随机样本
设一总体 ,,, 为从总体 中抽取的容量为 的样本,若样本满足下列两个条件:
,, 相互独立;
,, 相同分布。
称 ,, 为简单随机样本,也称简单样本或随机样本。
在实际应用中,有放回抽样获得的样本是简单随机样本;当抽取样本数量在总体中所占比例较小时,可以把无放回抽样获得的样本视为简单随机样本。
1.1.3 样本分布
当样本被视为随机变量时,就有一定的概率分布,这个概率分布被称为样本分布。样本分布是样本所受随机性影响的最完整的描述。
例 1.1.4
一批产品有 件,其中废品 件, 已知, 未知。现在从中抽出 个检验废品的件数,用以估计 或废品率 。抽样方式为有放回抽样。
设 表示第 次抽出的样本,令
由于是有放回抽样,因此在每次抽样时, 个产品中每个个体都以 的概率被抽中,此时有
有简单随机样本的性质(独立同分布)可得样本分布
即使抽样方式使用无放回抽样,当 很小时,上式描述的样本分布与真实的样本分布差别很小,因此仍然可把无放回抽样得到的样本视为有放回抽样得到的样本,即认为是简单随机样本。
1.1.4 统计推断
(1) 参数和参数空间
可以说,数理统计的一个统计模型就是一个样本分布,统计模型被样本分布完全决定。只有当样本分布的信息不全时才存在统计推断问题。
设样本 ,其中 和 未知。这种未知量,只能通过样本去估计。统计学上把出现在样本分布中的未知常数称为参数,这里 和 都是参数,这是可称 为参数向量。
在一些问题中参数虽未知,但根据参数的性质可给出参数取值的范围,参数取值的范围称为参数空间。比如 是一个参数空间。
(2) 样本分布族
样本分布既然包含未知参数,则可能的样本分布就不止一个,参数取不同值时得到不同的样本分布,这些样本分布构成了一个样本分布族。比如一个常见的样本分布族为
其中 是参数向量 , 是对应问题的参数空间。
更确切地说,统计模型就是样本分布族。样本分布族,连同其参数空间,完全确定了一个统计问题的范围。分布族越小,问题的确定度越高,意味着可以做出更精确和更可靠的结论。
(3) 统计推断
从总体中抽取一定大小的样本去推断总体的概率分布称为统计推断。
数理统计的最终目的是用样本去推断总体,当样本分布完全已知时不存在任何统计推断问题。
-
当样本分布形式已知,但含有未知参数时,统计推断的任务是确定未知参数的值,这种统计推断称为参数统计推断。
-
当样本分布形式未知时,统计推断的任务是通过样本对总体的分布做出推断,此时这种统计推断称为非参数统计推断。
参数统计推断主要有两类问题:参数估计和假设检验。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现