概率统计 期末复习
随机事件
随机事件与样本空间
互逆事件和互不相容事件的含义不同:
- 若 \(AB = \phi\),则称 \(A,B\) 互不相容
- 若 \(AB=\phi\) 且 \(A+B=S\),则称 \(A,B\) 互逆
常用公式:
-
\((A+B)C=AC+BC\)
-
\(AB+C=(A+C)(B+C)\)
-
\(A-B=A\overline{B}\)
古典概率和几何概率
高中内容
古典概率注意排列组合要 不重不漏
几何概率直接画图
条件概率以及各种公式
- \(P(A|B)=\cfrac{P(AB)}{P(B)},P(AB)=P(B)P(A|B)\)
- \(P(\overline{A}|B)=1-P(A|B)\)
- \(P(A+B)=P(A)+P(B)-P(AB)\)
- 若 \(B\subset A, P(A-B)=P(A)-P(B)\)
- 若 \(\sum\limits_{i=1}^{n}B_i=S\),且 \(B_i\) 互不相容,\(P(A)=\sum\limits_{i=1}^{n}P(B_i)P(A|B_i)\)
独立性
即 \(P(A|B)=P(A)\) ,表面 \(A,B\) 相互独立,此时 \(P(AB)=P(B)P(A|B)=P(A)P(B)\)
- 若 \(P(A|B)=P(A|\overline{B})\),也可以说明 \(A,B\) 独立
题目类型 & 坑点
“恰好有一个盒子有两个球”:含义不是其他盒子只有一个球,考虑下其他盒子装 \(3\) 个求的可能性
“甲乙两人交互射击”:结束时甲发射 \(X\) 枚子弹的含义:甲第 \(X\) 次中靶 + 甲第 \(X\) 次脱靶但接下来乙射中
随机变量
\(f(x)=F'(X)\)
\(F(x)=P\{X\leq x\}\)
各类分布函数
- 两点分布:\(P\{X=1\}=p,P\{X=0\}=1-p\)
- 泊松分布 \(\Pi(\lambda)\):\(P\{X=k\}=e^{-\lambda}\cfrac{\lambda^k}{k!},k=0,1,2\cdots\)
- 二项分布 \(B(n, p)\):\(P\{X=k\}=C_n^kp^k(1-p)^{n-k},k=0,1,2\cdots\)
- \(\lambda=np\),则 \(\Pi(\lambda)\approx B(n,p)\)
- 均匀分布 \(U[a,b]\) :\(f(x)=\cfrac{1}{b-a},a\leq x\leq b\)
- 指数分布:\(f(x)=\lambda e^{-\lambda},x\geq0\)
- 正态分布 \(N(\mu,\sigma)\) :\(f(x)=\cfrac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
- 欧拉 - 泊松积分:\(\int_{-\infty}^{+\infty}e^{-x^2}dx=\sqrt{\pi}\)
- \(F(x)=\Phi(\cfrac{x-\mu}{\sigma})\)
二维随机变量
基本公式
\(F(x,y)=P\{X\leq x,Y\leq y\}\)
\(F_X(x)=\lim\limits_{y\to+\infty}F(x,y)=F(x,+\infty)\)
\(F_Y(y)=\lim\limits_{x\to+\infty}F(x,y)=F(+\infty,y)\)
\(f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy\)
\(f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx\)
独立性
若 \(X,Y\) 满足 \(P\{X\leq x,Y\leq y\}=P\{X\leq x\}P\{Y\leq y\}\),则称为独立
判定方法:
- 离散型按定义验证
- 连续型:\(f(x,y)=f_X(x)f_Y(y)\)
随机变量函数的分布
“已知 \(X\) 的分布,求 \(Y=X^2+1\) 的分布”
求法
\(Y=g(X)\),则 \(F_Y(y)=P\{Y\leq y\}=P\{g(x)\leq y\}=P\{x\in D_y\}=\int_{D_y}f(x)dx\)
\(Z=g(X,Y)\),则 \(F_Z(z)=P\{(x,y)\in D_z\}=\int_{D_z}f(x,y)dxdy\)
例子
- \(Z=X+Y\),\(f_Z(z)=\int_{-\infty}^{+\infty}f(x,z-x)dx\)
- \(Z=\max(X,Y)\),\(F_Z(z)=F(Z,Z)\)
- \(Z=\min(X,Y)\),\(F_Z(z)=F_X(z)+F_Y(z)-F(z,z)\),若独立,有 \(F_Z(z)=1-[1-F_X(z)][1-F_Y(z)]\)
题目类型 & 坑点
主要是分类讨论,可以画个坐标系来解
\(Y=\cos(X)\) 这种类型的,\(D_Y\) 的范围可能不止一段
随机变量数字特征
基本定义
-
\(EX=\int_{-\infty}^{+\infty}xf(x)dx\)
-
\(DX=E(X-EX)^2\)
-
\(Cov(X,Y)=E[(X-EX)(Y-EY)]\)
-
\(\rho_{XY}=\cfrac{Cov(X,Y)}{\sqrt{DX}\sqrt{DY}}\)
- \(\rho_{XY}=0\) 即 \(X,Y\) 不相关
-
对于正态分布的随机变量,不相关 \(\Leftrightarrow\) 互相独立
-
\(k\) 阶中心矩:\(E(X-EX)^k\)
-
\(k\) 阶原点矩:\(EX^k\)
计算
-
\(E(X+Y)=EX+EY\)
-
\(E(CX)=C\cdot EX\)
-
若 \(X,Y\) 独立,\(EXY=EX\cdot EY\)
-
\(DX=EX^2-(EX)^2\)
-
\(D(CX)=C^2DX\)
-
若 \(X,Y\) 独立,\(D(X+Y)=D(X-Y)=DX+DY\)
-
\(D(C)=0\)
-
\(Cov(aX,bY)=abCov(X,Y)\)
-
\(Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)\)
题目类型 & 坑点
证明 \(EX\) 不存在 :\(\sum\limits_{k=0}^{+\infty}|k|P\{X=k\}\) 或 \(\int_{-\infty}^{+\infty}|x|f(x)dx\) 发散
不相关不一定独立,不相关:\(\rho_{XY}=0\), 独立:\(f(x,y)=f_X(x)f_Y(y)\)
大数定理和中心极限定理
不等式相关
-
\(P\{|X|\geq\epsilon\}\leq\cfrac{E|X|^k}{\epsilon^k}\)
-
\(P\{|E-EX|\geq\epsilon\}\leq\cfrac{DX}{\epsilon^2}\)
-
若 \(DX=0\) ,则 \(P\{X=EX\}=1\)
大数定理
-
依概率收敛:\(\lim\limits_{n\to+\infty}P\{|X_n-X|<\epsilon\}=1\)
-
\(EX_i=\mu,DX_i=\sigma^2\),则 \(\{\overline{X}\}\) 依概率收敛于常数 \(\mu\)
-
\(\lim\limits_{n\to+\infty}P\{|\cfrac{n_A}{n}-p|<\epsilon\}=1\)
-
随机变量 + 大量样本 + \(EX,DX\) 已知,可以标准化后近似为正态分布 \(\Phi(x)\)
题目 & 技巧
- 反向思维,设 \(X_i=\begin{equation}\begin{cases}1, & 第i次实验中发生 \\ 0, & 第i次实验中未发生\end{cases}\end{equation}\) ,\(X=\sum X_i\)。可以解决不少用定义法难以求解的期望题
- 服从大数定理:\(Y_n-EY_n\stackrel{P}\to 0\)
统计总体与样本
基本定义
设 \(X_1, X_2, \cdots, X_n\) 为来自总体 \(X\) 的一个样本
-
样本均值 \(\overline{X}=\cfrac{1}{n}\sum\limits_{i=1}^{n}X_i\)
-
样本方差 \(S^2=\cfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2=\cfrac{1}{n-1}[\sum\limits_{i=1}^nX_i^2-n\overline{X}^2]\)
-
样本标准差 \(S = \sqrt{S^2}=\sqrt{\cfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2}\)
-
样本 \(k\) 阶原点矩 \(A_k = \cfrac{1}{n}\sum\limits_{i=1}^nX_i^k,k=1,2,\cdots\)
-
样本 \(k\) 阶中心矩 \(B_k=\cfrac{1}{n}\sum\limits_{i-1}^n(X_i-\overline{X})^k,k=1,2,\cdots\)
统计量
针对不同的统计问题构造一个不含位置参数的样本的连续函数
常用统计量的分布
- 正态均值:\(\overline{X}\sim N\left(\mu,\cfrac{\sigma^2}{n}\right)\)
- \(\chi^2\) 分布:\(\chi^2(n)=\sum\limits_{i=1}^nX_i^2\),\(X_i\sim N(0,1)\)
- \(\chi^2(n)+\chi^2(m)=\chi^2(n+m)\)
- \(\chi^2_\alpha(n)=\cfrac{1}{2}(z_\alpha+\sqrt{2n+1})^2\)
- \(E\chi^2(n)=n,D\chi^2(n)=2n\)
- \(t\) 分布:\(T=\cfrac{X}{\sqrt{Y/n}}\sim t(n)\),\(X\sim N(0,1),Y\sim \chi^2(n)\)
- \(t_\alpha(n)=-t_{1-\alpha}(n)\)
- \(F\) 分布:\(X\sim\chi^2(n_1),Y\sim\chi^2(n_2)\),\(F=\cfrac{X/n_1}{Y/n_2}\sim F(n_1,n_2)\)
- \(F_\alpha(n_1,n_2)=\cfrac{1}{F_{1-\alpha}(n_2,n_1)}\)
参数估计
矩估计,点估计量的优良性
本质上是用样本矩估计总体矩
不过方差用的是 \(S^2=\cfrac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline{X})^2\)
- 无偏估计: \(E\hat{\theta}=\theta\)
- (一般做题用的标准)最小方差无偏估计:方差 \(D\hat\theta\) 越小,估计量越优
- 一致估计:\(\lim\limits_{n\to+\infty}P\{|\hat\theta-\theta|<\epsilon\}=1\)
矩估计求解过程
-
根据带求的参数,选择合适的矩
-
分别计算样本矩和总体矩
- 比如:计算 \(EX\) 和 \(A_1=\cfrac{1}{n}\sum\limits_{i=1}^nX_i\)
-
令两者相等,求解矩估计量
- 比如:令 \(EX=A_1, DX=S^2, DX=B_2\)
极大似然估计求解过程
- \(L=\prod\limits_{i=1}^nf(x_i,\theta)=\prod\limits_{i=1}^np(x_i,\theta)\)
- 解方程 \(\cfrac{\partial\ln L}{\partial\theta}=0\)
区间估计
估计 \(EX\):
- 已知 \(DX\) :\(U=\cfrac{\overline{x}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\),解出 \(\mu\in\left[\overline{x}\pm z_{1-\alpha/2}\cfrac{\sigma}{\sqrt n}\right]\)
- 未知 \(DX\) 则用 \(s^2\) 代替: \(T=\cfrac{\overline{x}-\mu}{s/\sqrt n}\sim t(n-1)\),解出 \(\mu\in\left[\overline{x}\pm t_{1-\alpha/2}(n-1)\cfrac{s}{\sqrt n}\right]\)
估计 \(DX\):
- \(Y=\cfrac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1)\),解得 \(\sigma^2\in\left[\cfrac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)},\cfrac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)}\right]\)
估计均值差:
-
\(\overline{x}\sim N\left(\mu_1,\cfrac{\sigma_1^2}{m}\right), \overline{y}\sim N\left(\mu_2,\cfrac{\sigma_2^2}{n}\right)\)
-
于是 \(\overline{x}-\overline{y}\sim N(\mu_1-\mu_2,\cfrac{\sigma_1^2}{m}+\cfrac{\sigma_2^2}{n})\)
-
带入 估计 \(EX\) 的表达式求解
估计方差比:
- \(\cfrac{s_1^2/s_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n-1,m-1)\),其中 \(s_1^2\) 来自 \(n\) 个样本, \(s_2^2\) 来自 \(m\) 个样本
- 解 \(F_{\alpha/2}(n-1,m-1)\leq \cfrac{s_1^2/s_2^2}{\sigma_1^2/\sigma_2^2}\leq F_{1-\alpha/2}(n-1,m-1)\)
假设检验
与区间估计的思路大体相同
- 区间估计是通过解不等式确认可信区间
- 假设检验是直接带入不等式确认某一个值是否可信
- 如果是单侧的,就移动一下分位点的选取。
所以记住 区间估计所解的不等式 ,两个问题就都解决了
(9.3 9.4 不考,所以也不需要记其他东西)
随机过程
与时间相关的随机变量族。
- 概率分布:定义同第二章,就是多了个时间当参数
- 独立过程:随机过程的任意 \(n\) 个状态都是相互独立的
- \(F(x_1,\cdots,x_n;t_1,\cdots,t_n)=\prod\limits_{i=1}^nF(x_i;t_i),n=1,2,\cdots\)
- 警告:\(Z(t)=(X^2+Y^2)t\neq\chi^2(2)\times t\),不能胡乱认为这俩独立
这一块主要就是些概念的计算,用到的都是之前的知识
数字特征
- \(\mu_x(t)=E[X(t)]\)
- \(\psi^2_X(t)=E[X^2(t)]\)
- \(\sigma^2_X(t)=E[X(t)-EX(t)]^2=E[X^2(t)]-\mu_X^2(t)\)
- \(R_X(t_1,t_2)=E[X(t_1)X(t_2)]\)
- \(C_X(t_1,t_2)=E{[X(t_1)-\mu_X(t_1)]\cdot[X(t_2)-\mu_X(t_2)]}\)
满足如下关系:
- \(C_X(t_1,t_2)=R_X(t_1,t_2)-\mu_X(t_1)\mu_X(t_2)\)
- \(\sigma^2_X(t)=\psi^2_X(t)-\mu^2_X(t)\)
平稳过程
一类特殊的随机过程
严平稳过程
即随机过程与原点选取无关:\(F(x_1,\cdots,x_n,t_1,\cdots,t_n)=F(x_1,\cdots,x_n,t_1+\epsilon,\cdots,t_n+\epsilon)\)
- 一维分布:\(F_1(x_1;t_1)=F_1(x_1)\)
- 二维分布:\(F_2(x_1,x_2;t_1,t_2)=F_2(x_1,x_2;\tau)\)
性质:(平稳性)
- \(\mu_X,\psi^2_X,\sigma^2_X\) 是常数(与原点无关)
- \(R_X(\tau),C_X(\tau)\) 仅与间隔有关
做法 & 坑点
具备平稳性不一定是严平稳过程
证明是严平稳过程只能用定义法
广义平稳过程(简称平稳过程)
满足以下三点的随机过程为广义平稳过程,也具有平稳性:
- \(E[X^2(t)]\) 存在且有限
- \(E[x(t)]=\mu_x\) 是常数
- \(R_X(\tau)\) 仅依赖于 \(\tau\)
平稳相关: \(E[X(t)Y(t+\tau)]=R_{XY}(\tau)\) 仅与 \(\tau\) 有关,则称为平稳相关,此时 \(C_{XY}(\tau)=R_{XY}(\tau)-\mu_X\mu_Y\)
标准协方差函数 \(\rho_{XY}(\tau)=\cfrac{C_{XY}(\tau)}{\sqrt{C_X(0)\cdot C_Y(0)}}\),若 \(\rho_{XY}(\tau)=0\) 称两个随机过程不相关
正态平稳过程
正态过程:\(X(t_i)\) 服从正态分布,则称 \(\{X(t),t\in T\}\) 为正态过程
独立正态过程:具有独立性的正态过程
正态平稳过程:广义平稳的正态过程
- 设 \(X(t)\) 是正态过程,则 \(X(t)\) 为严平稳过程 \(\Leftrightarrow\) \(X(t)\) 为广义平稳过程
就是个概念,计算和之前的没变化
遍历过程
时间均值 \(\overline{X(t)}=\lim\limits_{l\to+\infty}\cfrac{1}{2l}\int_{-l}^{l}X(e,t)dt\)
时间相关函数 \(\overline{X(t)X(t+\tau)}\lim\limits_{l\to+\infty}\cfrac{1}{2l}\int_{-l}^lX(e,t)X(e.t+\tau)dt\)
各态便利性
- 均值:\(P\{\overline{X(t)}=E[X(t)]=\mu_X\}=1\)
- 自相关函数: \(P\{\overline{X(t)X(t+\tau)}=E[X(t)X(t+\tau)]=R_X(\tau)\}=1\)
- 均值和自相关函数都具有各态便利性的平稳过程称为遍历过程,或者说具有便利性
均方连续:\(\lim\limits_{n\to+\infty}E(X_n-X)^2=0\)
- 若 \(\{X(t), t\in(-\infty,+\infty)\}\) 均方连续平稳,则 \(X(t)\) 的均值是各态遍历的充分必要条件是 \(\lim\limits_{l\to+\infty}\cfrac{1}{l}\int_{-l}^{l}\left(1-\cfrac{\tau}{2l}\right)(R_X(\tau)-\mu_X^2)d\tau=0\)
- 若 \(\{X(t), t\in[0,+\infty)\}\) 均方连续平稳,则 \(X(t)\) 的均值是各态遍历的充分必要条件是 \(\lim\limits_{l\to+\infty}\cfrac{1}{l}\int_{0}^{l}\left(1-\cfrac{\tau}{l}\right)(R_X(\tau)-\mu_X^2)d\tau=0\)
注意事项
主要是定义的掌握
- \(DX=0\leftrightarrow P\{X=EX\}=1\) ,当方差 \(DX\neq0\) 时可能用来证伪便利性
马尔可夫链
满足无后效性的过程就是马尔可夫过程:\(P\{X(t_{n+1})=j_{n+1}|X(t_n)=j_n,\cdots,X(t_1)=j_1\}=P\{X(t_{n+1})=j_{n+1}|X(t_n)=j_n\}\)
转移概率:\(p_{ij}(t_m)=P\{X(t_{m+1})=j|X(t_m)=i\}\)
\(n\) 步转移概率: \(p_{ij}^{(n)}(t_m)=P\{X(t_{m+n})=j|X(t_m)=i\}\)
离散参数齐次马尔可夫链
满足对 \(\forall m\forall k,p_{ij}(t_m)=p_{ij}(t_k)\) 的离散参数马尔可夫链(说人话就是转移概率与时间无关)
单步转移矩阵:\(P=(p_{ij})=\begin{equation}\left(\begin{array}{cccc}p_{00}&p_{01}&\cdots&p_{0n}\\p_{10}&p_{11}&\cdots&p_{1n}\\\vdots&\vdots&\ddots&\vdots\\p_{n0}&p_{n1}&\cdots&p_{nn} \end{array}\right)\end{equation}\)
直接做矩阵乘法,就可以得到 \(n\) 步转移矩阵 \(P^n\)
平稳分布:\(\pi P=\pi\) 可以直接解方程得到(实际上是解 \(\pi(P-I)=0\) 和 \(\sum\pi_{i}=1\))
(12.3 12.4 不考,所以也特别简单了)