PT_数理统计基本概念_抽样/常用统计量
文章目录
数理统计
-
概率论中,随机现象的统计规律是通过随机变量的概率分布(分布律/分布函数)来全面描述
- 其中,概率分布通常是已知的
- 或者是假设已知
- 相关的推理是基于已知进行的
- 其中,概率分布通常是已知的
-
但是情况不总是已知的
- 许多实际问题中,某个随机变量的服从的概率分布可能是未知的
- 又或者,我们可以根据某些事实推断出分布的所属类型
- 但是却不知道具体的分布函数(比如分布类型的参数)
- 比如,我们知道元件的寿命是服从指数分布的,但是不知道指数分布的参数 λ \lambda λ的取值
- 但是却不知道具体的分布函数(比如分布类型的参数)
-
确定某个分布类型下的分布的参数的问题,就是数理统计要研究的
- 数理统计中,总是研究对象的全体中抽取一部分做观测/试验
- 通过这些操作可获得一些信息
- 再对这些信息进行加工,对总体做出判断
- 在抽样的过程中,是具有随机性的,因此总含有一定程度的不确定性
- 因此,需要对试验得出的信息进行加工处理,以便使得做出错误推断的概率尽可能小
- 数理统计中,利用概率来衡量我们所做出的推断的可靠/可信程度
- 伴随着一定概率的推断,称为**统计推断**
- 数理统计中,总是研究对象的全体中抽取一部分做观测/试验
-
数理统计使用概率论和数学的方法,研究**收集(观察/试验)**带有随机误差的数据的方法
- 获取总体的部分个体的信息
-
在设定的统计模型之下,对收集到的数据进行统计分析,对所研究的问题做出统计推断
-
统计推断主要包括:
- 参数估计
- 假设检验
基本概念
-
总体:
- 研究对象的全体称为总体
-
个体:
- 组成总体的元素称为个体
-
指标:
- 个体具有若干指标,通常仅对问题相关的指标进行分析研究
-
指标与随机变量:
- 有些指标是客观存在的,但是由于事先无法知道这些指标的值,所以将无法事先知道的指标视为随机变量
- 总体和随机变量联系起来,就可以通过研究这个随机变量来研究总体
- 随机变量的分布函数能够全面的描述随机变量的统计规律
- 因此,对总体的研究的一个重要目的就是确定相应随机变量的分布
-
从数学的方式描述总体和个体
- 总体:具有确定分布的随机变量X
- 所有研究对象的某项数量指标X的全体称为总体
- 可以用与总体相应的随机变量X或分布函数F(x)来表征总体
- 比如:
- 总体X
- 总体F(x)
- X的概率分布F(x)称为总体分布
- X的数字特征为总体数字特征
- 个体:随机变量的一个可能取值
- 总体:具有确定分布的随机变量X
抽取假设
- 假设从总体中抽取n个个体
- 以
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn依次表示这n次试验的结果
- X i ( i = 1 , 2 , ⋯ , n ) X_i(i=1,2,\cdots,n) Xi(i=1,2,⋯,n)的取值具有随机性,因此它们 X i X_i Xi随机变量
- 为了使得抽取的部分个体可以客观反映总体的特性,可采用简单随机抽样.
- 以
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn依次表示这n次试验的结果
简单随机抽样
-
每个个体被抽中的机会是均等的
- 保证了每次抽样的结果具有和总体X相同的分布
-
抽取一个个体后不影响总体
- 保证各个各次抽样结果之间的独立性
简单随机样本
- 定义
S
=
{
X
i
}
=
(
X
1
,
X
2
,
⋯
,
X
n
)
\mathscr{S}=\set{X_i}=(X_1,X_2,\cdots,X_n)
S={Xi}=(X1,X2,⋯,Xn),是个n维随机变量;
S
中的元素
\mathscr{S}中的元素
S中的元素相互独立且都与总体X同分布,则称\mathscr{S}为总体X的简单随机样本,简称样本
- 样本容量:样本中的随机变量 X i X_i Xi数目n为样本容量
- 样本值:样本的具体观测值
s
=
(
x
1
,
x
2
,
⋯
,
x
n
)
s=(x_1,x_2,\cdots,x_n)
s=(x1,x2,⋯,xn)称为样本值
- 独立观测值:这n个值也称为总体X的n个独立观测值
- 如果总体X的有分布F(x),样本\mathscr{S}的分布
- F n ( s ) = ∏ i = 1 n F ( x i ) F_n(s)=\prod\limits_{i=1}^{n}F(x_i) Fn(s)=i=1∏nF(xi)
- 如果总体X有概率密度f(x),则样本\mathscr{S}的概率密度为:
- f n ( s ) = ∏ i = 1 n f ( x i ) f_n(s)=\prod\limits_{i=1}^{n}f(x_i) fn(s)=i=1∏nf(xi)
- 如果总体X有分布律
P
(
X
=
a
i
)
=
p
i
,
i
=
1
,
2
,
⋯
P(X=a_i)=p_i,i=1,2,\cdots
P(X=ai)=pi,i=1,2,⋯,则样本\mathscr{S}的分布律
- P ( X i = x i , X 2 = x 2 , ⋯ , X n = x n ) = ∏ i = 1 n P ( X i = x i ) P(X_i=x_i,X_2=x_2,\cdots,X_n=x_n)=\prod\limits_{i=1}^{n}P(X_i=x_i) P(Xi=xi,X2=x2,⋯,Xn=xn)=i=1∏nP(Xi=xi)
统计量
-
样本 S \mathbb{\mathscr{S}} S的不含未知参数的函数 T = T ( S ) T=T(\mathscr{S}) T=T(S)称为统计量(是定义在样本上的函数)
-
因为统计量的作用在于推断未知参数,所以统计量函数不可以包括未知参数
-
作为随机变量的函数,统计量本身也是一个随机变量
-
如果 s 是 S 的样本值 , 则 : T ( s ) 为 T ( S ) 的观测值 如果s是\mathscr{S}的样本值,则:T(s)为T(\mathscr{S})的观测值 如果s是S的样本值,则:T(s)为T(S)的观测值
-
常见的统计量
- 需要和随机变量的均值和方差有区别开来
- 随后的性质中会提及它们的关系
样本数字特征
-
样本均值:
-
X ‾ = ∑ i = 1 n ( 1 n X i ) = 1 n ∑ i = 1 n X i \overline{X} =\sum\limits_{i=1}^{n}(\frac{1}{n}X_i) =\frac{1}{n}\sum\limits_{i=1}^{n}X_i X=i=1∑n(n1Xi)=n1i=1∑nXi
- 基于等概率抽取个体,所有个体被抽中的概率为 1 n \frac{1}{n} n1
-
-
样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2 S2=n−11i=1∑n(Xi−X)2
- 样本标准差为 S = S 2 样本标准差为S=\sqrt{S^2} 样本标准差为S=S2
- 这里和概率论中的方差在形式上有所不同,这是有意为之,在性质的推导处会体现出来
-
样本k阶原点矩
- A k = 1 n ∑ i = 1 n X i k ; k = 1 , 2 , ⋯ A_k=\frac{1}{n}\sum\limits_{i=1}^{n}X_i^k;k=1,2,\cdots Ak=n1i=1∑nXik;k=1,2,⋯
-
样本k阶中心矩
- A k = 1 n ∑ i = 1 n ( X i − X ‾ ) k ; k = 1 , 2 , ⋯ A_k=\frac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^{k};k=1,2,\cdots Ak=n1i=1∑n(Xi−X)k;k=1,2,⋯
性质
-
设总体
X
的数学期望和方差存在
,
E
(
X
)
=
μ
,
D
(
X
)
=
σ
2
设总体X的数学期望和方差存在,E(X)=\mu,D(X)=\sigma^2
设总体X的数学期望和方差存在,E(X)=μ,D(X)=σ2
- 如果 S = ( X 1 , ⋯ , X n ) 是总体 X 的样本 如果\mathscr{S}=(X_1,\cdots,X_n)是总体X的样本 如果S=(X1,⋯,Xn)是总体X的样本
样本平均值和样本方差于总体X的均值和方差的关系
-
则:
- E ( X ‾ ) = μ D ( X ‾ ) = 1 n σ 2 E ( S 2 ) = σ 2 E(\overline{X})=\mu \\D(\overline{X})=\frac{1}{n}\sigma^2 \\E(S^2)=\sigma^2 E(X)=μD(X)=n1σ2E(S2)=σ2
-
推导:
-
X i 与总体 X 独立同分布 , 则有 : E ( X i ) = E ( X ) = μ D ( X i ) = D ( X ) = σ 2 D ( ∑ i = 1 n X i ) = ∑ i = 1 n D ( X i ) 记 T = ∑ i = 1 n X i ; 则 X ‾ = 1 n T ∑ i = 1 n X i = n X ‾ E ( X ‾ ) = E ( ∑ i = 1 n ( 1 n X i ) ) = 1 n ∑ i = 1 n E ( X i ) = 1 n n μ = μ D ( X ‾ ) = D ( ∑ i = 1 n ( 1 n X i ) ) = 1 n 2 ∑ i = 1 n D ( X i ) = 1 n 2 n σ 2 = 1 n σ 2 X_i与总体X独立同分布,则有: \\E(X_i)=E(X)=\mu \\D(X_i)=D(X)=\sigma^2 \\D(\sum\limits_{i=1}^{n}X_i)=\sum\limits_{i=1}^{n}D(X_i) \\记T=\sum\limits_{i=1}^{n}X_i;则\overline{X}=\frac{1}{n}T \\ \sum\limits_{i=1}^{n}X_i=n\overline{X} \\\\ E(\overline{X}) =E(\sum\limits_{i=1}^{n}(\frac{1}{n}X_i)) =\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i) =\frac{1}{n}n\mu=\mu \\ D(\overline{X}) =D(\sum\limits_{i=1}^{n}(\frac{1}{n}X_i)) =\frac{1}{n^2}\sum\limits_{i=1}^{n}D(X_i) =\frac{1}{n^2}n\sigma^2=\frac{1}{n}\sigma^2 Xi与总体X独立同分布,则有:E(Xi)=E(X)=μD(Xi)=D(X)=σ2D(i=1∑nXi)=i=1∑nD(Xi)记T=i=1∑nXi;则X=n1Ti=1∑nXi=nXE(X)=E(i=1∑n(n1Xi))=n1i=1∑nE(Xi)=n1nμ=μD(X)=D(i=1∑n(n1Xi))=n21i=1∑nD(Xi)=n21nσ2=n1σ2
-
现在有 : E ( X i ) = E ( X ) = E ( X ‾ ) = μ D ( X i ) = D ( X ) = n D ( X ‾ ) = σ 2 ; D ( X ‾ ) = 1 n D ( X ) = 1 n σ 2 由于 X i , X 同分布 E ( X i 2 ) = E ( X 2 ) D ( X i 2 ) = D ( X 2 ) D ( X ) = E ( X 2 ) − E 2 ( X ) = σ 2 D ( X ‾ ) = E ( X ‾ 2 ) − E 2 ( X ‾ ) = 1 n σ 2 E ( X ‾ 2 ) = 1 n σ 2 + μ 2 E ( X i 2 ) = E ( X 2 ) = D ( X ) + E 2 ( X ) = σ 2 + μ 2 现在有: \\E(X_i)=E(X)=E(\overline{X})=\mu \\D(X_i)=D(X)=nD(\overline{X})=\sigma^2; \\D(\overline{X})=\frac{1}{n}D(X)=\frac{1}{n}\sigma^2 \\\\由于X_i,X同分布 \\E(X_i^2)=E(X^2) \\D(X_i^2)=D(X^2) \\D(X)=E(X^2)-E^2(X)=\sigma^2 \\D(\overline{X})=E(\overline{X}^2)-E^2(\overline{X})=\frac{1}{n}\sigma^2 \\E(\overline{X}^2)=\frac{1}{n}\sigma^2+\mu^2 \\E(X_i^2)=E(X^2)=D(X)+E^2(X)=\sigma^2+\mu^2 现在有:E(Xi)=E(X)=E(X)=μD(Xi)=D(X)=nD(X)=σ2;D(X)=n1D(X)=n1σ2由于Xi,X同分布E(Xi2)=E(X2)D(Xi2)=D(X2)D(X)=E(X2)−E2(X)=σ2D(X)=E(X2)−E2(X)=n1σ2E(X2)=n1σ2+μ2E(Xi2)=E(X2)=D(X)+E2(X)=σ2+μ2
-
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 E ( S 2 ) = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 = 1 n − 1 E ( ∑ i = 1 n ( X i 2 − 2 X i X ‾ + X ‾ 2 ) ) = 1 n − 1 E ( ( ∑ i = 1 n X i 2 ) − ( 2 X ‾ ∑ i = 1 n X i ) + ( ∑ i = 1 n X ‾ 2 ) ) = 1 n − 1 E ( ( ∑ i = 1 n X i 2 ) − ( 2 n X ‾ 2 ) + ( n X ‾ 2 ) ) = 1 n − 1 E ( ( ∑ i = 1 n X i 2 ) − ( n X ‾ 2 ) ) = 1 n − 1 ( ( ∑ i = 1 n E ( X i 2 ) ) − ( n E ( X ‾ 2 ) ) ) = 1 n − 1 ( n ( μ 2 + σ 2 ) − ( n ( 1 n σ 2 + μ 2 ) ) = 1 n − 1 ( n ( σ 2 ) − ( σ 2 ) ) = n − 1 n − 1 σ 2 = σ 2 S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2 \\ E(S^2)=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2 \\=\frac{1}{n-1} E(\sum\limits_{i=1}^{n}(X_i^2-2X_i\overline{X}+\overline{X}^2)) \\=\frac{1}{n-1} E((\sum\limits_{i=1}^{n}X_i^2) -(2\overline{X}\sum\limits_{i=1}^{n}X_i) +(\sum\limits_{i=1}^{n}\overline{X}^2)) \\=\frac{1}{n-1} E((\sum\limits_{i=1}^{n}X_i^2) -(2n\overline{X}^2) +(n\overline{X}^2)) \\=\frac{1}{n-1} E((\sum\limits_{i=1}^{n}X_i^2) -(n\overline{X}^2)) \\=\frac{1}{n-1} ((\sum\limits_{i=1}^{n}E(X_i^2)) -(nE(\overline{X}^2))) \\=\frac{1}{n-1} (n(\mu^2+\sigma^2) -(n(\frac{1}{n}\sigma^2+\mu^2)) \\=\frac{1}{n-1} (n(\sigma^2)-( \sigma^2)) =\frac{n-1}{n-1}\sigma^2 =\sigma^2 S2=n−11i=1∑n(Xi−X)2E(S2)=n−11i=1∑n(Xi−X)2=n−11E(i=1∑n(Xi2−2XiX+X2))=n−11E((i=1∑nXi2)−(2Xi=1∑nXi)+(i=1∑nX2))=n−11E((i=1∑nXi2)−(2nX2)+(nX2))=n−11E((i=1∑nXi2)−(nX2))=n−11((i=1∑nE(Xi2))−(nE(X2)))=n−11(n(μ2+σ2)−(n(n1σ2+μ2))=n−11(n(σ2)−(σ2))=n−1n−1σ2=σ2
-
样本k阶矩与总体X的k阶矩的关系
-
由独立同分布和Khinchin LLN可以得到:
-
设总体 X 的 k 阶原点矩 E ( X k ) = μ k ; 当 n → ∞ 记 : X k ‾ = 1 n ∑ i = 1 n X i k 1 n ∑ i = 1 n X i k → P μ k 或 : X ‾ → P μ k ( n → ∞ ) 矩的阶数 k = 1 , 2 , ⋯ 设总体X的k阶原点矩E(X^k)=\mu_k; \\当n\to\infin \\ 记:\overline{X^k}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i^k \\ \frac{1}{n}\sum\limits_{i=1}^{n}X_i^k\xrightarrow{P}\mu_k \\或:\overline{X}\xrightarrow{P}\mu_k\quad(n\to{\infin}) \\矩的阶数k=1,2,\cdots 设总体X的k阶原点矩E(Xk)=μk;当n→∞记:Xk=n1i=1∑nXikn1i=1∑nXikPμk或:XPμk(n→∞)矩的阶数k=1,2,⋯
- khinchin LLN : X ‾ → P μ ; ( n → ∞ ) 其中 : E ( X n ) = E ( X ) = E ( X ‾ ) = E ( X ) ‾ = μ 得到 : X k ‾ → P μ k ; ( n → ∞ ) 其中 : E ( X n k ) = E ( X k ) = E ( X k ‾ ) = E ( X k ) ‾ = μ k \text{khinchin LLN}: \\\overline{X}\xrightarrow{P}{\mu};\quad{(n\to{\infin})} \\其中:E(X_n)=E(X)=E(\overline{X})=\overline{E(X)}=\mu \\\\ 得到:\overline{X^k}\xrightarrow{P}\mu_k;\quad{(n\to{\infin})} \\其中:E(X_n^k)=E(X^k)=E(\overline{X^k})=\overline{E(X^k)}=\mu_k khinchin LLN:XPμ;(n→∞)其中:E(Xn)=E(X)=E(X)=E(X)=μ得到:XkPμk;(n→∞)其中:E(Xnk)=E(Xk)=E(Xk)=E(Xk)=μk
-
顺序统计量
第k位顺序统计量
-
设 S = X 1 , X 2 , ⋯ , X 2 是来自总体 X 的样本 , 如果 : X ( k ) , k = 1 , ⋯ , n 对于任意一组样本观察值 s = ( x 1 , ⋯ , x n ) , 对序列 s 的各个值进行升序排列 , 得到 s s o r t e d = ( x i 1 , ⋯ , x i n ) 简写为 : s s o r t e d = ( x ( 1 ) , ⋯ , x ( n ) ) ; 注意 X ( p ) 与 X p 是截然不同的含义 尽管它们在取值上可能相等 , 但是前者是有上下文顺序和 x k 是区别的 x ( 1 ) 是最小的值 , x ( n ) 就是最大值 , 对于 x 1 , 或者 x n , 我们只知道他们分别是 X 1 , X n 的观测值 x k 是 X k 的观测值 , x ( k ) 是对排序后的第 k 个位置的值的称呼 其中 , 第 k 个值 x i k 称为 X k 设\mathscr{S}=X_1,X_2,\cdots,X_2是来自总体X的样本,如果: \\X_{(k)},k=1,\cdots,n \\对于任意一组样本观察值s=(x_1,\cdots,x_n), \\对序列s的各个值进行升序排列,得到s_{sorted}=(x_{i_1},\cdots,x_{i_n}) \\简写为:s_{sorted}=(x_{(1)},\cdots,x_{(n)}); \\注意X_{(p)}与X_{p}是截然不同的含义 \\尽管它们在取值上可能相等,但是前者是有上下文顺序和x_k是区别的 \\x_{(1)}是最小的值,x_{(n)}就是最大值,对于x_1,或者x_n, \\我们只知道他们分别是X_1,X_n的观测值 \\x_k是X_k的观测值,x_{(k)}是对排序后的第k个位置的值的称呼 \\其中,第k个值x_{i_k}称为X_{k} 设S=X1,X2,⋯,X2是来自总体X的样本,如果:X(k),k=1,⋯,n对于任意一组样本观察值s=(x1,⋯,xn),对序列s的各个值进行升序排列,得到ssorted=(xi1,⋯,xin)简写为:ssorted=(x(1),⋯,x(n));注意X(p)与Xp是截然不同的含义尽管它们在取值上可能相等,但是前者是有上下文顺序和xk是区别的x(1)是最小的值,x(n)就是最大值,对于x1,或者xn,我们只知道他们分别是X1,Xn的观测值xk是Xk的观测值,x(k)是对排序后的第k个位置的值的称呼其中,第k个值xik称为Xk
-
X ( 1 ) ⩽ X ( 2 ) ⩽ ⋯ ⩽ X ( 1 ) X_{(1)}\leqslant{X_{(2)}}\leqslant{\cdots}\leqslant{X_{(1)}} X(1)⩽X(2)⩽⋯⩽X(1)
- 在有的地方,有序序列(已排好序序列)中的元素所处的位置被称为该元素的秩(rank)
- 例如最小的元素秩为1,次小的元素秩为2
- 在有的地方,有序序列(已排好序序列)中的元素所处的位置被称为该元素的秩(rank)
最小顺序统计量
- X ( 1 ) = m i n ( X 1 , ⋯ , X n ) X_{(1)}=min(X_1,\cdots,X_n) X(1)=min(X1,⋯,Xn)
最大顺序统计量
- X ( n ) = m a x ( X 1 , ⋯ , X n ) X_{(n)}=max(X_1,\cdots,X_n) X(n)=max(X1,⋯,Xn)
分布函数
-
设总体X的分布函数为F(x)
-
根据最大最小分布的性质(结论)
-
得最大/小顺序统计量的分布函数
- F X ( 1 ) = F ( 1 ) ( x ) = 1 − ( 1 − F ( x ) ) n F X ( n ) = F ( n ) = F n ( x ) F_{X_{(1)}}=F_{(1)}(x)=1- (1-F(x))^n \\F_{X_{(n)}}=F_{(n)}=F^n(x) FX(1)=F(1)(x)=1−(1−F(x))nFX(n)=F(n)=Fn(x)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
2022-05-28 CN_@DNS@HTTP
2022-05-28 http_认证机制&https加密&TLS&SSL&密钥对(公钥&私钥)
2021-05-28 dataStructure_图的遍历算法(广度优先搜索BFS/深度优先搜索 DFS with Stack)&归纳推理和认识规律的方法论
2021-05-28 Android_on开头命名的方法
2021-05-28 android_关于logcat内容不变化现象