概率统计之统计部分抄ppt

统计基础

统计量#

定义:样本不依赖于位置参数的函数

常用统计量:

  • 样本均值:X¯=iXi/n
  • 样本方差:S2=i(XiX¯)2/(n1),这是对 Xi 方差的无偏估计量。
  • k 阶矩:Ak
  • k 阶中心矩:Bk

重要分布#

χ2 分布#

n 个服从标准正态分布相互独立随机变量的平方和为 χn2,则称 χn2 服从自由度为 nχ2 分布,记为 χn2χ2(n)

自由度为 nχ2 分布的上 α 分位数记为 χa2(n)

例题结论:

  • 正态分布独立样本条件下,X¯S2 相独立。证明过程大概如下:

  • (n1)S2/σ2χ2(n1)

    • 以上两个结论的证明(可以直接看最后一项):

    • 先取 Y1 为均值(即 X¯),再取 Y2Yn 以表示出 S2。取 Y2,由于要求与 Y1 不相关(我们不妨假设 Y2 只与 X1,X2 有关),在保证单位向量的情况下系数唯一。接着取 Y3,其与 Y1 不应当相关(这是与均值独立的要求),与 Y2 也不应当相关(保证变量相互独立,以证明下一题),因此可以列出形如 A31+A32+A33=0,A31=A32,A312+A322+A332=1 三个方程,这又唯一确定了这三个系数。以此类推得到系数矩阵 A

    • 为什么这种方式使得 Y22++Yn2 恰好表示出 S2?不知道。

    • 看了下lds课件,其实根本没必要以这种方式构造式的给出系数矩阵 A。直接取系数矩阵 A 的第一行为 1n 来表示均值,其他任取但保证单位正交。那么有 Yi2=YTY=XTATAX=XTX=Xi2。再由 Y1=X¯n 可得 i=2nYi2=Xi2nX¯2=(XiX¯)2。因为正交的构造,也可以立得两个结论。

  • χ22Exp(1/2)

t 分布#

XN(0,1),Yχ2(n)X,Y 相互独立,T=XYn,则称 T 服从自由度为 nt 分布,记作 Tt(n)

统一量纲:分母应当开根号。

t 分布在自由度较大时近似为标准正态分布。

例题结论:

  • X¯μS2nt(n1)
    • 已经证明两个变量相互独立,再根据 (n1)S2/σ2χ2(n1) 凑一下就可以了。
    • 注意下面 S 除的是 n,但凑出来的是 t(n1)
  • T=(X¯Y¯)(μ1μ2)Sw1n1+1n2,其中 Sw2=(n11)S12+(n21)S22n1+n22。则 Tt(n1+n22)
    • X¯Y¯ 为正态分布,标准化。由于 χ2 分布的可加性,将 S12,S22 分别拿出来凑一个 χ2 分布。

F分布#

Xχ2(n1),Yχ2(n2)X,Y 独立。称 F=Xn1Yn2 服从自由度为 (n1,n2)F 分布,记作 FF(n1,n2)

F(1,n)t(n) 的平方。

例题结论:

  • F=S12/σ12S22/σ22F(n11,n21)

参数估计

点估计#

定义:用简单随机样本统计量估计参数,称为点估计量。样本确定取值,用点估计量估计出的值称为点估计值。

矩法(矩估计)#

用前 k 阶矩或中心矩,估计 k 个参数。

方法:先用参数表示前 k 阶(中心)矩,再反解出参数,代入样本即可。

极大似然估计#

Bayes 公式:P(θ|A)=P(A|θ)P(θ)P(A),现在样本 A 已知,如果假设 P(θ) 是均匀分布的,argmax P(θ|A)=argmax P(A|θ),因此极大似然。为了方便,取 log 是常用的方法。

估计量的标准#

无偏性#

无偏估计量、渐进无偏估计量

有效性#

对于所有的 θ,方差都不大。且存在一个 θ 方差小,则更有效。

均方误差原则#

均方误差。

相合性#

θ^ 收敛于 θ

置信区间#

定义:两个统计量夹住概率至少为 α 的参数取值区间,称 α 为置信度。双侧置信区间、单侧置信区间。

枢轴量#

样本和待估参数的函数,但其分布只依赖于样本,不依赖于未知参数。

例如在独立同分布的总体中取样,根据中心极限定理,减均值除标准差后近似服从 N(0,1) 分布,这与待估参数无关。

因此如果给定待估参数和样本,可以通过减均值除方差之后落入的点的概率来判断是否可信,即可信区间。

正态分布总体下区间估计#

单个正态总体估计 X#

已知 σ2,估计 μ

X¯X¯μσ/nN(0,1)

未知 σ2,估计 μ

还要用 X¯,但因为 σ 未知,用样本标准差 S 代替,这也对应着 t 分布在自由度大时近似标准正态分布。

X¯μS/nt(n1)

未知 μ,估计 σ2

(n1)S2/σ2χ2(n1)

两个正态总体估计 X,Y#

已知 σ12,σ22,估计 μ1μ2

X¯Y¯ 看成一个正态分布就行了。

σ1=σ2 但未知,估计 μ1μ2

T=(X¯Y¯)(μ1μ2)Sw1n1+1n2t(n1+n22)

σ1σ2 且未知

如果充分大,用中心极限定理把 X¯Y¯ 近似成标准正态分布做。

对于有限小样本,X¯Y¯ 近似服从 t(min{n11,n21})

μ1,μ2 未知,估计 σ12/σ22

S12/S22σ12/σ22=S12/σ12S22/σ22F(n11,n21)

假设检验#

原假设:要否定的假设。H0

备择假设:与原假设对立的假设。H1

拒绝域:如果样本的某个统计量落入拒绝域,我们就拒绝原假设,接受备择假设。

I 类错误:拒绝真实原假设 P(H0 | H0)

II 类错误:接受错误原假设 P(H0 | H0)

希望同时减少两类错误,但同样样本下往往不可能。

Neyman-Pearson 原则方法#

I 类错误拒绝了真实的原假设,这与我们的要求(证否 H0)不符。

因此首先控制第 I 类错误发生概率不超过 α,再寻找检验使得第 II 类错误发生概率尽量小。

此处的 α 被称为显著水平。

p 值方法#

p 值:当原假设成立时,统计量比观察到的结果更极端的概率。

对于显著水平 α,若 pα,则拒绝原假设,称检验结果在水平 α 下是统计显著的。

否则接受原假设,称检验结果在水平 α 下是统计不显著的。

假设检验实例#

单个正态总体#

Z 检验:σ2 已知,检验均值
t 检验:σ2 未知,检验均值
χ2 检验:μ 未知,检验 σ2

两个正态总体#

已知 σ1,σ2,检验 μ1μ2
σ1=σ2 但未知,检验 μ1μ2
σ1σ2 且未知,检验 μ1μ2
F 检验:μ1,μ2 未知,检验 σ12σ22

回归分析#

一元线性回归#

假设模型为:

Yi=α+βxi+εi

εN(0,σ2)

其中 α,β,σ2 未知

据此知 YiN(α+βxi,σ2).

由样本给出 α,β 的点估计 α^,β^,称 y^=α^+β^x

直接定义偏差函数为 Q(α,β)=(yiy^i)2

通过最小化 Q(α^,β^) 来得到 α^β^

不写了。

posted @   skyh  阅读(146)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示
主题色彩