PT_数理统计基本概念_抽样/常用统计量

文章目录

数理统计

概率论中,随机现象的统计规律是通过随机变量的概率分布(分布律/分布函数)来全面描述
- 其中,概率分布通常是已知的
  - 或者是假设已知
- 相关的推理是基于已知进行的
但是情况不总是已知的
- 许多实际问题中,某个随机变量的服从的概率分布可能是未知的
- 又或者,我们可以根据某些事实推断出分布的所属类型
  - 但是却不知道具体的分布函数(比如分布类型的参数)
    - 比如,我们知道元件的寿命是服从指数分布的,但是不知道指数分布的参数 $\lambda$ 的取值
确定某个分布类型下的分布的参数的问题,就是数理统计要研究的
- 数理统计中,总是研究对象的全体中抽取一部分做观测/试验
  - 通过这些操作可获得一些信息
  - 再对这些信息进行加工,对总体做出判断
- 在抽样的过程中,是具有随机性的,因此总含有一定程度的不确定性
- 因此,需要对试验得出的信息进行加工处理,以便使得做出错误推断的概率尽可能小
- 数理统计中,利用概率来衡量我们所做出的推断的可靠/可信程度
- 伴随着一定概率的推断,称为**统计推断**
数理统计使用概率论和数学的方法,研究**收集(观察/试验)**带有随机误差的数据的方法
- 获取总体的部分个体的信息
在设定的统计模型之下,对收集到的数据进行统计分析,对所研究的问题做出统计推断
统计推断主要包括:
- 参数估计
- 假设检验

基本概念

总体:
- 研究对象的全体称为总体
个体:
- 组成总体的元素称为个体
指标:
- 个体具有若干指标,通常仅对问题相关的指标进行分析研究
指标与随机变量:
- 有些指标是客观存在的,但是由于事先无法知道这些指标的值,所以将无法事先知道的指标视为随机变量
- 总体和随机变量联系起来,就可以通过研究这个随机变量来研究总体
- 随机变量的分布函数能够全面的描述随机变量的统计规律
  - 因此,对总体的研究的一个重要目的就是确定相应随机变量的分布
从数学的方式描述总体和个体
- 总体:具有确定分布的随机变量X
  - 所有研究对象的某项数量指标X的全体称为总体
  - 可以用与总体相应的随机变量X或分布函数F(x)来表征总体
  - 比如:
    - 总体X
    - 总体F(x)
    - X的概率分布F(x)称为总体分布
    - X的数字特征为总体数字特征
- 个体:随机变量的一个可能取值

抽取假设

假设从总体中抽取n个个体
- 以 $X_1,X_2,\cdots,X_n$ 依次表示这n次试验的结果
  - $X_i(i=1,2,\cdots,n)$ 的取值具有随机性,因此它们 $X_i$ 随机变量
  - 为了使得抽取的部分个体可以客观反映总体的特性,可采用简单随机抽样.

简单随机抽样

每个个体被抽中的机会是均等的
- 保证了每次抽样的结果具有和总体X相同的分布
抽取一个个体后不影响总体
- 保证各个各次抽样结果之间的独立性

简单随机样本

定义 $\mathscr{S}=\set{X_i}=(X_1,X_2,\cdots,X_n)$ ,是个n维随机变量; $\mathscr{S}中的元素$ 相互独立且都与总体X同分布,则称\mathscr{S}为总体X的简单随机样本,简称样本
- 样本容量:样本中的随机变量 $X_i$ 数目n为样本容量
- 样本值:样本的具体观测值 $s=(x_1,x_2,\cdots,x_n)$ 称为样本值
  - 独立观测值:这n个值也称为总体X的n个独立观测值
如果总体X的有分布F(x),样本\mathscr{S}的分布
- $F_n(s)=\prod\limits_{i=1}^{n}F(x_i)$
如果总体X有概率密度f(x),则样本\mathscr{S}的概率密度为:
- $f_n(s)=\prod\limits_{i=1}^{n}f(x_i)$
如果总体X有分布律 $P(X=a_i)=p_i,i=1,2,\cdots$ ,则样本\mathscr{S}的分布律
- $P(X_i=x_i,X_2=x_2,\cdots,X_n=x_n)=\prod\limits_{i=1}^{n}P(X_i=x_i)$

统计量

样本 $\mathbb{\mathscr{S}}$ 的不含未知参数的函数 $T=T(\mathscr{S})$ 称为统计量(是定义在样本上的函数)
- 因为统计量的作用在于推断未知参数,所以统计量函数不可以包括未知参数
- 作为随机变量的函数,统计量本身也是一个随机变量
- $如果s是\mathscr{S}的样本值,则:T(s)为T(\mathscr{S})的观测值$

常见的统计量

需要和随机变量的均值和方差有区别开来
- 随后的性质中会提及它们的关系

样本数字特征

样本均值:
- $\overline{X} =\sum\limits_{i=1}^{n}(\frac{1}{n}X_i) =\frac{1}{n}\sum\limits_{i=1}^{n}X_i$
  - 基于等概率抽取个体,所有个体被抽中的概率为 $\frac{1}{n}$
样本方差: $S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2$
- $样本标准差为S=\sqrt{S^2}$
- 这里和概率论中的方差在形式上有所不同,这是有意为之,在性质的推导处会体现出来
样本k阶原点矩
- $A_k=\frac{1}{n}\sum\limits_{i=1}^{n}X_i^k;k=1,2,\cdots$
样本k阶中心矩
- $A_k=\frac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^{k};k=1,2,\cdots$

性质

$设总体X的数学期望和方差存在,E(X)=\mu,D(X)=\sigma^2$
- $如果\mathscr{S}=(X_1,\cdots,X_n)是总体X的样本$

样本平均值和样本方差于总体X的均值和方差的关系

则:
- $E(\overline{X})=\mu \\D(\overline{X})=\frac{1}{n}\sigma^2 \\E(S^2)=\sigma^2$
推导:
- $X_i与总体X独立同分布,则有: \\E(X_i)=E(X)=\mu \\D(X_i)=D(X)=\sigma^2 \\D(\sum\limits_{i=1}^{n}X_i)=\sum\limits_{i=1}^{n}D(X_i) \\记T=\sum\limits_{i=1}^{n}X_i;则\overline{X}=\frac{1}{n}T \\ \sum\limits_{i=1}^{n}X_i=n\overline{X} \\\\ E(\overline{X}) =E(\sum\limits_{i=1}^{n}(\frac{1}{n}X_i)) =\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i) =\frac{1}{n}n\mu=\mu \\ D(\overline{X}) =D(\sum\limits_{i=1}^{n}(\frac{1}{n}X_i)) =\frac{1}{n^2}\sum\limits_{i=1}^{n}D(X_i) =\frac{1}{n^2}n\sigma^2=\frac{1}{n}\sigma^2$
- $\\E(X_i)=E(X)=E(\overline{X})=\mu \\D(X_i)=D(X)=nD(\overline{X})=\sigma^2; \\D(\overline{X})=\frac{1}{n}D(X)=\frac{1}{n}\sigma^2 \\\\由于X_i,X同分布 \\E(X_i^2)=E(X^2) \\D(X_i^2)=D(X^2) \\D(X)=E(X^2)-E^2(X)=\sigma^2 \\D(\overline{X})=E(\overline{X}^2)-E^2(\overline{X})=\frac{1}{n}\sigma^2 \\E(\overline{X}^2)=\frac{1}{n}\sigma^2+\mu^2 \\E(X_i^2)=E(X^2)=D(X)+E^2(X)=\sigma^2+\mu^2$
- $S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2 \\ E(S^2)=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2 \\=\frac{1}{n-1} E(\sum\limits_{i=1}^{n}(X_i^2-2X_i\overline{X}+\overline{X}^2)) \\=\frac{1}{n-1} E((\sum\limits_{i=1}^{n}X_i^2) -(2\overline{X}\sum\limits_{i=1}^{n}X_i) +(\sum\limits_{i=1}^{n}\overline{X}^2)) \\=\frac{1}{n-1} E((\sum\limits_{i=1}^{n}X_i^2) -(2n\overline{X}^2) +(n\overline{X}^2)) \\=\frac{1}{n-1} E((\sum\limits_{i=1}^{n}X_i^2) -(n\overline{X}^2)) \\=\frac{1}{n-1} ((\sum\limits_{i=1}^{n}E(X_i^2)) -(nE(\overline{X}^2))) \\=\frac{1}{n-1} (n(\mu^2+\sigma^2) -(n(\frac{1}{n}\sigma^2+\mu^2)) \\=\frac{1}{n-1} (n(\sigma^2)-( \sigma^2)) =\frac{n-1}{n-1}\sigma^2 =\sigma^2$

样本k阶矩与总体X的k阶矩的关系

由独立同分布和Khinchin LLN可以得到:
- $设总体X的k阶原点矩E(X^k)=\mu_k; \\当n\to\infin \\ 记:\overline{X^k}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i^k \\ \frac{1}{n}\sum\limits_{i=1}^{n}X_i^k\xrightarrow{P}\mu_k \\或:\overline{X}\xrightarrow{P}\mu_k\quad(n\to{\infin}) \\矩的阶数k=1,2,\cdots$
  - $\text{khinchin LLN}: \\\overline{X}\xrightarrow{P}{\mu};\quad{(n\to{\infin})} \\其中:E(X_n)=E(X)=E(\overline{X})=\overline{E(X)}=\mu \\\\ 得到:\overline{X^k}\xrightarrow{P}\mu_k;\quad{(n\to{\infin})} \\其中:E(X_n^k)=E(X^k)=E(\overline{X^k})=\overline{E(X^k)}=\mu_k$

顺序统计量

第k位顺序统计量

$设\mathscr{S}=X_1,X_2,\cdots,X_2是来自总体X的样本,如果: \\X_{(k)},k=1,\cdots,n \\对于任意一组样本观察值s=(x_1,\cdots,x_n), \\对序列s的各个值进行升序排列,得到s_{sorted}=(x_{i_1},\cdots,x_{i_n}) \\简写为:s_{sorted}=(x_{(1)},\cdots,x_{(n)}); \\注意X_{(p)}与X_{p}是截然不同的含义 \\尽管它们在取值上可能相等,但是前者是有上下文顺序和x_k是区别的 \\x_{(1)}是最小的值,x_{(n)}就是最大值,对于x_1,或者x_n, \\我们只知道他们分别是X_1,X_n的观测值 \\x_k是X_k的观测值,x_{(k)}是对排序后的第k个位置的值的称呼 \\其中,第k个值x_{i_k}称为X_{k}$
$X_{(1)}\leqslant{X_{(2)}}\leqslant{\cdots}\leqslant{X_{(1)}}$
- 在有的地方,有序序列(已排好序序列)中的元素所处的位置被称为该元素的秩(rank)
  - 例如最小的元素秩为1,次小的元素秩为2

最小顺序统计量

$X_{(1)}=min(X_1,\cdots,X_n)$

最大顺序统计量

$X_{(n)}=max(X_1,\cdots,X_n)$

分布函数

设总体X的分布函数为F(x)
根据最大最小分布的性质(结论)
得最大/小顺序统计量的分布函数
- $F_{X_{(1)}}=F_{(1)}(x)=1- (1-F(x))^n \\F_{X_{(n)}}=F_{(n)}=F^n(x)$

posted @ 2023-05-28 20:14 xuchaoxin1375 阅读(44) 评论(0) 编辑收藏举报来源

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· PT@数字特征@数学期望@方差@标准差

· ML@概率@常用分布@常用函数及其性质

· 概率论与数理统计期末复习整理

· 数理统计笔记

· 常见统计量与其抽样分布

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了

历史上的今天：
2022-05-28 CN_@DNS@HTTP
2022-05-28 http_认证机制&https加密&TLS&SSL&密钥对(公钥&私钥)
2021-05-28 dataStructure_图的遍历算法(广度优先搜索BFS/深度优先搜索 DFS with Stack)&归纳推理和认识规律的方法论
2021-05-28 Android_on开头命名的方法
2021-05-28 android_关于logcat内容不变化现象

公告

昵称： xuchaoxin1375
园龄： 4年10个月
粉丝： 1
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

xuchaoxin1375