第七章 参数估计
文章目录
前面第5、6章我们了解到了数理统计如何与概率论联系起来(第五章)以及一些基本定理、抽样方法(第六章)。数理统计的话,其就是充分利用已经有的 数据或者是 数字特征来进行对于整体 数据或者 数字特征的估计。
其中主要有两类问题:
- 总体分布函数已经知道,若干参数未知,eg:我知道是正态分布,但是未知参数u和s我不清楚该怎么办;
- 总体分布函数未知,但是若干数据特征我知道,eg:我知道其中某些数字特征,比如说:数学期望,方差;
第一节 点估计
第五章的大数定律告诉我们:当样本足够大的时候,我们可以用样本来估计总体,点估计就是一种已知样本分估计的参数的过程。
1.点估计
点估计:我们通常可以按照矩的阶数从1到k列出k个样本等于总体矩的方程,从而求出带求的参数,aka:数字特征法。
我们现在有一个分布函数:
F
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
F(x;\theta_1,\theta_2,...,\theta_n)
F(x;θ1,θ2,...,θn)
假设
(
x
1
,
x
2
,
.
.
.
,
x
n
)
(x_1,x_2,...,x_n)
(x1,x2,...,xn)
是取自X的样本,那么如果总体K阶原点矩E(Xk)存在,则总体X的j阶原点矩为
α
i
(
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
=
E
(
X
j
)
,
1
≤
j
≤
k
\alpha_i(\theta_1,\theta_2,...,\theta_n)=E(X^j),1\le j\le k
αi(θ1,θ2,...,θn)=E(Xj),1≤j≤k
样本(x1,x2,…,xn)的j阶原点矩为:
A
j
=
1
n
∑
x
i
j
A_j=\frac{1}{n}\sum x^j_i
Aj=n1∑xij
令总体矩阵等于对应的样本矩,可以得到k个方程(多少个参数就有多少个方程):
α
j
(
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
=
A
j
(
1
≤
j
≤
k
)
\alpha_j(\theta_1,\theta_2,...,\theta_k)=A_j(1\le j \le k)
αj(θ1,θ2,...,θk)=Aj(1≤j≤k)
也就是说,一般来说总体的分布特征会告诉你,然后求出对应的原点矩(一阶矩就是期望)后,你计算一下对应样本矩。
2.极大似然估计
极大似然估计:假设总体的密度函数为
f
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
i
)
f(x;\theta_1,\theta_2,...,\theta_i)
f(x;θ1,θ2,...,θi)
其中theta均为未知参数,x1、x2、、、xn为来自总体X的样本,他们的联合密度函数为:
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
=
∏
i
=
1
n
f
(
x
i
;
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_l)=\prod_{i=1}^{n}f(x_i;\theta_1,\theta_2,...,\theta_n)
L(x1,x2,...,xn;θ1,θ2,...,θl)=i=1∏nf(xi;θ1,θ2,...,θn)
上面的密度函数为所有参数的似然函数。
如果说我可以找到一组参数组合使得似然函数最大,那么说明:这组参数最能够让这组样本代表这个总体。
计算技巧:
对于
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
=
∏
i
=
1
n
f
(
x
i
;
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_l)=\prod_{i=1}^{n}f(x_i;\theta_1,\theta_2,...,\theta_n)
L(x1,x2,...,xn;θ1,θ2,...,θl)=i=1∏nf(xi;θ1,θ2,...,θn)
两边同时取得对数,那么可以得到
ln
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
l
)
=
∑
i
=
1
n
ln
f
(
x
i
;
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
\ln L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_l)=\sum_{i=1}^{n}\ln f(x_i;\theta_1,\theta_2,...,\theta_n)
lnL(x1,x2,...,xn;θ1,θ2,...,θl)=i=1∑nlnf(xi;θ1,θ2,...,θn)
随后分别对每一个参数进行求偏导并令偏导数=0,最后就可以得到一个参数组合,该参数组合便是所求的极大似然估计量。
3.稳健估计(不考,懒得做笔记了QAQ)
第二节 估计量的评判标准
1.无偏性
假设
θ
\theta
θ
是总体参数,那么用统计量
θ
i
′
=
θ
i
′
(
x
1
,
x
2
,
.
.
.
,
x
n
)
(
θ
i
′
是
一
个
关
于
样
本
值
的
函
数
)
\theta'_i=\theta'_i(x_1,x_2,...,x_n)(\theta_i'是一个关于样本值的函数)
θi′=θi′(x1,x2,...,xn)(θi′是一个关于样本值的函数)
来估计theta,若
θ
′
\theta'
θ′
的数学期望
E
(
θ
′
)
=
θ
E(\theta')=\theta
E(θ′)=θ
那么我们称呼:
θ
′
\theta'
θ′
为theta的无偏估计量。
定理1:对于总体有
E
(
X
)
=
μ
,
D
(
X
)
=
σ
2
E(X)=\mu,D(X)=\sigma^2
E(X)=μ,D(X)=σ2
从总体X中抽取一定样本x1、x2、、xn,那么:
- 均值是期望无偏估计;
- 样本方差是总体方差的无偏估计;
个人理解:总体参数之所以这样称呼,是因为在前面说明数字特征的时候提到过,总体的期望和方差就是两个位置参数,那么如果是我用相关的统计量去估计未知参数,如果说统计量的数学期望是等于位置参数的,那么就是无偏估计。目前感觉没啥感性认知。
2.有效性
对于极大似然估计和矩估计得到的多组无偏估计参数组合,谁的方差小,说的有效性更大。
3.一致性(了解一下,=-=)
就是说当用来估计的参数量足够大的时候,统计量参数估计越能趋于总体的未知参数。
这个好理解——这就是机器学习中的表达能力的说法,参数量越大,模型的表达能力越强。
第三节 区间估计
点估计是一下子给一个准确的估计值,但是一般来说更加科学、合理、准确的方法是给一个预测区间,这就是区间估计。
1.总体均值的区间估计
已知总体X分布依赖于位置参数theta,由给定的样本容量为n的样本可以得到两个统计量
θ
1
,
θ
2
\theta_1,\theta_2
θ1,θ2
对于给定的
α
\alpha
α
如果这两个统计量满足:
P
(
θ
1
′
<
θ
<
θ
2
′
)
=
1
−
α
P(\theta_1'<\theta<\theta_2')=1-\alpha
P(θ1′<θ<θ2′)=1−α
那么我们称呼区间:
[
θ
1
′
,
θ
2
′
]
[\theta_1',\theta_2']
[θ1′,θ2′]
为theta的置信水平为1-alpha的置信区间,两个统计量分别为置信下限与上限,1-alpha为置信概率,alpha为显著水平。
(1)总体:正态分布;方差已知
问:已知总体X服从
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2)
,其中
σ
2
\sigma^2
σ2
已知,从X中抽取样本x1-xn,由此样本球的u的置信区间(只有u不知道)。
答:我们根据之前的抽样分布定理得到:
μ
服
从
分
布
:
N
(
μ
,
σ
2
n
)
\mu服从分布:N(\mu,\frac{\sigma^2}{n})
μ服从分布:N(μ,nσ2)
于是 :
U
=
x
‾
−
μ
σ
/
n
−
N
(
0
,
1
)
U=\frac{\overline{x}-\mu}{\sigma/\sqrt{n}}-N(0,1)
U=σ/nx−μ−N(0,1)
获取双侧分位点:
P
(
∣
U
∣
<
μ
α
2
)
=
1
−
α
P(|U|<\mu_{\frac{\alpha}{2}})=1-\alpha
P(∣U∣<μ2α)=1−α
从而可以化简得到一个
μ
\mu
μ
的不等式子,这就是其置信区间:
(
x
‾
−
u
α
2
σ
n
,
x
‾
+
u
α
2
σ
n
)
(\overline{x}-u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{x}+u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}})
(x−u2αnσ,x+u2αnσ)
(2)分布:正态分布;方差未知
这种情况的话,很明显就不能构造标准正态分布找分位点了,只能另找法子——由第六章第二个抽样分布定理我们可以得到:
t
=
x
‾
−
μ
s
n
−
t
(
n
−
1
)
t=\frac{\overline{x}-\mu}{\frac{s}{\sqrt{n}}}-t(n-1)
t=nsx−μ−t(n−1)
**这个不用到总体方差,而用到样本方差的式子。**后面步骤、方法同上——构造t分布、找双侧分位点。最后得到:
(
x
‾
−
t
α
2
(
n
−
1
)
s
n
,
x
‾
+
t
α
2
(
n
−
1
)
s
n
)
(\overline{x}-t_\frac{\alpha}{2}(n-1)\frac{s}{\sqrt{n}},\overline{x}+t_\frac{\alpha}{2}(n-1)\frac{s}{\sqrt{n}})
(x−t2α(n−1)ns,x+t2α(n−1)ns)
(3)一般总体,大样本
根据中心极限定理,只要样本足够大:
U
=
x
−
μ
σ
/
n
U=\frac{x-\mu}{\sigma/\sqrt{n}}
U=σ/nx−μ
都是趋近于标准正态分布的。那么u的区间估计为:
(
x
‾
−
u
α
2
σ
n
,
x
‾
+
u
α
2
σ
n
)
(\overline{x}-u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{x}+u_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}})
(x−u2αnσ,x+u2αnσ)
2.总体方差的区间估计
已知总体服从一个正态分布:
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2)
并且已知样本x1-xn,现在要对方差做出估计。
同样的使用第六章的抽样分布定理:
(
n
−
1
)
s
2
σ
2
=
χ
2
(
n
−
1
)
\frac{(n-1)s^2}{\sigma^2}=\chi^2(n-1)
σ2(n−1)s2=χ2(n−1)
给定显著水平alpha。记两个临界值k1、k2:
k
1
=
χ
α
2
2
(
n
−
1
)
,
k
2
=
χ
1
−
α
2
2
(
n
−
1
)
k_1=\chi^2_{\frac{\alpha}{2}}(n-1),k_2=\chi^2_{1-\frac{\alpha}{2}}(n-1)
k1=χ2α2(n−1),k2=χ1−2α2(n−1)
根据卡方分布的上分位点规律知:
1
−
α
=
P
(
k
1
<
(
n
−
1
)
s
2
σ
2
<
k
2
)
=
P
(
(
n
−
1
)
s
2
k
1
<
σ
2
<
(
n
−
1
)
s
2
k
2
)
1-\alpha=P(k_1<\frac{(n-1)s^2}{\sigma^2}<k_2)=P(\frac{(n-1)s^2}{k_1}<\sigma^2<\frac{(n-1)s^2}{k_2})
1−α=P(k1<σ2(n−1)s2<k2)=P(k1(n−1)s2<σ2<k2(n−1)s2)
故可以得到方差置信区间:
(
(
n
−
1
)
s
2
k
1
,
(
n
−
1
)
s
2
k
2
)
(\frac{(n-1)s^2}{k_1},\frac{(n-1)s^2}{k_2})
(k1(n−1)s2,k2(n−1)s2)
总结
这一章就是已经知道了大概的分布函数,要估计未知参数,那么其实就是一个机器学习的范畴,第一节就是training,第二节就是一个valid/test过程。第三节主要是另一种更为科学的估计方法——区间估计。
)s2}{k_1}<\sigma2<\frac{(n-1)s^2}{k_2})
故
可
以
得
到
方
差
置
信
区
间
:
故可以得到方差置信区间:
故可以得到方差置信区间:
(\frac{(n-1)s2}{k_1},\frac{(n-1)s2}{k_2})
$$
总结
这一章就是已经知道了大概的分布函数,要估计未知参数,那么其实就是一个机器学习的范畴,第一节就是training,第二节就是一个valid/test过程。第三节主要是另一种更为科学的估计方法——区间估计。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具