学习笔记 - 概率统计 - 统计总体与样本

统计总体与样本

从概率论到数理统计:

  • 大量分布的平均值是稳定的
  • 大量独立的随机变量之和近似服从正态分布

经典统计学的推断过程:

  • 得到大量样本
  • 用数据的统计量来估计未知模型的参数,得到概率模型 —— 大数定律
  • 利用统计量的分布给出误差或者进行假设检验,为了得到统计量的分布,通常会假设其为正态分布 —— 中心极限定理

样本矩与统计量

样本矩

\(X_1, X_2, \cdots, X_n\) 为来自总体 \(X\) 的一个样本

  • 样本均值 \(\overline{X}=\cfrac{1}{n}\sum\limits_{i=1}^{n}X_i\)

  • 样本方差 \(S^2=\cfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2=\cfrac{1}{n-1}[\sum\limits_{i=1}^nX_i^2-n\overline{X}^2]\)

  • 样本标准差 \(S = \sqrt{S^2}=\sqrt{\cfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2}\)

  • 样本 \(k\) 阶原点矩 \(A_k = \cfrac{1}{n}\sum\limits_{i=1}^nX_i^k,k=1,2,\cdots\)

  • 样本 \(k\) 阶中心矩 \(B_k=\cfrac{1}{n}\sum\limits_{i-1}^n(X_i-\overline{X})^k,k=1,2,\cdots\)

\(X_i\) 来自样本的观察值,以上计算结果也称为对应样本矩的观察值

统计量

\(X_1, X_2, \cdots, X_n\) 为来自总体 \(X\) 的一个样本, \(g(X_1, X_2, \cdots, X_n )\) 是一个不含有其他未知量的连续函数,则称 \(g(X_1, X_2, \cdots, X_n )\) 是一个统计量

顺序统计量

\(X_1, X_2, \cdots, X_n\) 为来自总体 \(X\) 的一个样本, \(x_1, x_2, \cdots, x_n\) 是样本的观察值,将其按观察值的大小顺序排列,得到一组顺序统计量 \(X_1^*, X_2^*, \cdots, X_n^*\)\(X_1^*\) 为最小顺序统计量, \(X_n^*\) 为最大顺序统计量

经验分布函数

\[\begin{equation}F_n(x)=\begin{cases}0&x<x_1^*\\\cfrac{k}{n}&x_k^*\leq x\leq x_{k+1}^*,k=1,2,\cdots,n-1\\1&x\geq x_n^* \end{cases}\end{equation} \]

常用统计量的分布

正态分布

设总体 \(X\sim N(\mu,\sigma^2)\)\(X_1,X_2,\cdots,X_n\) 是来自于 \(X\) 的一个样本

  • \(\overline{X}\sim N(\mu,\cfrac{\sigma^2}{n})\)
  • \(\cfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0, 1)\)
  • \(\cfrac{X_i-\mu}{\sigma}\sim N(0,1)\)
  • \(\cfrac{1}{\sqrt{n}}\sum\limits_{i=1}^{n}\cfrac{X_i-\mu}{\sigma}\sim N(0,1)\)
  • \(X_j-\overline{X}\sim N(0,\cfrac{n-1}{n}\sigma^2)\)

\(\chi^2\) 分布

设总体 \(X\sim N(0,1)\)\(X_1,X_2,\cdots,X_n\) 是来自于 \(X\) 的一个样本,则称 \(\chi^2=X_1^2+\cdots+X_n^2\) 为服从自由度为 \(n\)\(\chi^2\) 分布,记为 \(\chi^2\sim \chi^2(n)\)

自由度为 \(n\)\(\chi^2(n)\) 的密度函数为

\[\begin{equation}f(y)=\begin{cases}\cfrac{1}{2^{\frac{n}{2}\Gamma(\frac{n}{2})}}y^{\frac{n}{2}-1}e^{-\frac{y}{2}}&y>0\\0&y\leq0\end{cases}\end{equation} \]

\(E(\chi^2)=n, D(\chi^2)=2n\)

\(\chi^2\) 分布的性质

\(X_1, X_2, \dots, X_n\) 是来自正态总体 \(N(\mu,\sigma^2)\) 的样本,则 \(\sum\limits_{i=1}^n(\cfrac{X_i-u}{\sigma})^2\sim \chi^2(n)\)

\(X_1\sim\chi^2(n_1),X_2\sim\chi^2(n_2)\)\(X_1+X_2\sim\chi^2(n_1+n_2)\)

\(\cfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\)

\(\cfrac{(n-1)S}{\sigma^2}\sim\chi^2(n-1)\)

\(\overline{X}\)\(S^2\) 独立

t 分布 (student 分布)

\(X\sim N(0,1),Y\sim\chi^2(n)\) 且相互独立,则 \(T=\cfrac{X}{\sqrt{Y/N}}\) 服从自由度为 \(n\)\(t\) 分布,记为 \(T\sim t(n)\)

\(f(t)=\cfrac{\Gamma[(n+1)/2]}{\sqrt{n\pi}\Gamma(n/2)}\left(1+\cfrac{t^2}{n}\right)^{-(n+1)/2}\)

t 分布的性质

\(f(t)\) 关于 \(t = 0\) 对称,且 \(\lim\limits_{n\to\infty}f(t)=\cfrac{1}{\sqrt{2\pi}}e^{-t^2/2}\)

\(n\) 充分大时, \(t\) 分布近似于标准正态分布 \(N(0, 1)\)

\(X_1,X_2,\cdots,X_n\) 是总体 \(N(\mu, \sigma^2)\) 的样本, \(\overline{X}, S^2\) 是样本均值和样本方差,则 \(\cfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)\)

F 分布

\(U\sim\chi^2(n_1), V\sim\chi^2(n_2)\) 且相互独立,则 \(F=\cfrac{U/n_1}{V/n_2}\),记为 \(F\sim F(n_1, n_2)\)

概率密度估计没人会想知道(

\(X_1, \cdots,X_m\)\(Y_1, \cdots, Y_n\) 分别来自 \(N(\mu_1,\sigma_1^2)\)\(N(\mu_2, \sigma_2^2)\)\(F=\cfrac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(m-1,n-1)\)

下侧分位点

posted @ 2020-11-21 22:44  Withinlover  阅读(414)  评论(0编辑  收藏  举报