数据科学基础

一. 基本概念

1.1 随机试验与随机事件

  • 随机试验:

    • 相同条件可重复
    • 结果不止一个
    • 无法预测
  • 事件:每种结果,随机事件A、B、C.

  • 基本事件: 相对于实验目的不可再分.

  • 复合事件: 由基本事件复合.

1.2 样本空间

  • 样本空间: 所有基本事件复合, 记作 \(\Omega\).
  • 样本点: \(\Omega\)中的元素 \(\omega\).

以下两种是非随机\极端:

  • 必然事件: 一定会发生的事件.
  • 不可能事件: 一定不发生的事件.
  • 无限可列个: 按某种规律排成一个序列.

1.3 事件间的关系

  • 包含

  • 交( 积 )

  • 并( 和 )

  • 差: \(A - B = A - AB\)

  • 互不相容事件: \(A\)\(B\)不同时发生

  • 对立事件: $A + B = \Omega $ 且 $ AB = \phi$
    与互不相容事件的不同:

    • 互不相容事件可以有多个, 对立事件只有两个.
    • 互不相容事件可以均不发生, 对立事件必定发生一个.
      相关公式: \(A-B=A - AB=A\overline{B}\).
  • 完备事件组:
    \(A_1, A_2,A_3...A_n\) 两两不相容, 且 \(\bigcup_{i=1}^{n} A_i = \Omega\)

  • 运算律
    (1) 交换律
    (2) 结合律
    (3) 分配律
    (4) 对偶律:

    • \(\overline{A\cup{B}} = \overline{A}\cap \overline{{B}}\)
    • \(\overline{A\cap{B}} = \overline{A}\cup \overline{{B}}\)

1.4 频率与概率

1.4.1 频率

1.4.2 概率: 发生的可能性大小: \(P(A)\)

  • 性质:
    1. 规范性: \(P(\Omega) = 1\) , \(P(\phi) = 0\)
    2. 非负性: \(0 \leq P(A) \leq 1\)
    3. 可加性

1.5 事件概率

1.5.1 古典概型

\(P(A) = \frac{A的有利样本点}{\Omega 中样本总数}=\frac{A中基本事件数}{基本事件数}\)

  • 性质:
    1. 有限可能
    2. 等可能
    3. 有限可加性: \(A_1, A_2,A_3...A_n\) 两两不相容,\(P(A_1+A_2+A_3...+A_n) = \sum_{i=1}^n {P(A_i)}\)

1.5.2 几何概型

典型问题: 会面问题, 蒲丰投针

  • 性质:
    1. 完全可加性:\(P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty}P(A_i)\)

1.6 公理化

  1. 非负性: \(0 \leq P(E) \leq 1\)
  2. 规范性: \(P(\Omega) = 1\)
  3. 完全可加性: \(P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty}P(A_i)\)

由这三条公理可以推出其他定理.
定理 1: \(P(\phi) = 0\)
证明:

\[\begin{aligned} &P(\Omega) = P(\Omega+\phi) = 1,\\ \because &\Omega \cap \phi = \phi,\\ \therefore &P(\Omega) = P(\Omega)+P(\phi) = 1,\\ &P(\phi) = 0. \end{aligned} \]

定理 2:\(P(\overline{E}) = 1 - P(E)\)
证明:

\[\begin{aligned} &P(\Omega) = P(E\cup\overline{E}),\\ &\because E\cup \overline{E}=\phi,\\ &\therefore P(\overline{E})+P(E) = 1.\\ \end{aligned} \]

定理 3: \(P(A\cup B) = P(A)+P(B)-P(AB)\)
证明:

\[\begin{aligned} P(A\cup B) &= P((A-B)+(B-A)+AB)\\ &=P(A-B)+P(B-A)+P(AB),\\ P(A\cup B) + P(AB) &= P(A-B)+P(AB)+P(B-A)+P(AB),\\ P(A\cup B) +P(AB) &= P(A)+P(B).\\ \end{aligned} \]

补充: \(P(A+B+C) = P(A)+P(B)+P(C)-P(AB)-P(C)-P(BC)+P(ABC).\)

1.7 条件概率

1.7.1 条件概率

定义: 在样本空间内, \(A\),\(B\) 两个事件,$ P(B)>0$,在 \(B\) 已经发生的条件下 \(A\)
发生的概率, 记作 \(P(A|B)\).
公式: **$ P(A|B) = \frac{P(AB)}{P(B)} \(**. 乘法公式:\)P(AB) = P(A|B)P(B)$
性质:

  • \(P(A|B)\leq 0\)
  • \(P(\Omega|B) = 0\)

1.7.2 全概率公式

定理:\(A_1,A_2,A_3...A_n\) 是完备事件组(互不相容且并集为样本空间),且\(P(A_i)>0\),则\(P(B)=\sum_{i=1}^nP(A_i)P(B|A_i)\)
典型问题: 各个厂家的产品各占多少,每个厂家的不合格率也不一样,求总的不合格概率

1.7.3 贝叶斯公式

全概率公式是知道原因推结果,贝叶斯公式是知道结果推原因, 例子: 感冒和肺炎都有可能引起发烧,全概率公式是感冒情况下发烧概率和肺炎情况下发烧概率都已知情况下求总的发烧概率,而贝叶斯公式是已知发烧,求感冒或者肺炎的概率.
定理:
\(A_1,A_2,A_3...A_n\) 是完备事件组,\(P(A_i)>0,P(B)>0,则P(A_k|B)=\frac{P(A_k)P(B|A_k)}{\sum_{i=1}^{n}P(A_i)P(B|A_i)}\)

  • \(P(A_i)\):先验概率,易算
  • \(P(A_i|B)\):后验概率,不易算(知道结果,求原因)

1.8 独立性

定义:
  事件 A 发生的概率不受事件 B 是否发生的影响.即: \(P(A|B) = P(A)\).

  • 注意:\(\phi,\Omega\)与任意事件独立.

定理 1\(P(AB)=P(A)P(B)\), 则为独立事件.
定理 2:

  • \(A\)\(B\)独立, 则 \(A\)\(\overline{B}\),\(\overline{A}\)\(B\),\(\overline{A}\)\(\overline{B}\)独立
  • \(P(A) = 0\)或者\(P(A)=1\),则\(A\)与任何事件独立.
    • 注意: 概率为零不一定是空集, 概率为1也不一定是全集,比如集合概率模型,落在数轴上某点概率为零,但仍然可以发生.
  • \(E(X+Y)=E(X)+E(Y)\)
  • \(D(X+Y)=D(X)+D(Y)\)

二. 随机变量及其分布

2.1 随机变量

将样本空间 \(\Omega\) 中的每个元素 e 与实数对应起来.

  • 定义:
    设随机试验的样本空间为 $ S = {e}.\space X = X(e) $ 是定义在样本空间的实值单值函数. 称 $ X = X(e) $ 为随机变量.

2.2

2.2.1 离散型随机变量及其分布律

  1. 离散型随机变量定义:

    • 有限个
    • 无限可列个
  2. 满足条件:

    • \(p_k\geq0,k=1,2...\)
    • \(\sum^n_{k=1}p_k=1\)
  3. 分布律:

    \[P\{X = x_k\}=p_k,k=1,2···. \]

    也可以用表格:

    \(X\) \(x_1\) \(x_2\) ... \(x_n\) ...
    \(p_k\) \(p_1\) \(p_2\) ... \(p_n\) ...

2.2.2 连续型随机变量及其概率密度函数

  1. 定义:
    对于非负可积函数\(f(x)\),有

\[p\{a\ < x \leq b\}=\int^{a}_{b}f(x)dx. \]

\[p\{x<X<x+\Delta x\} \approx f(x) \cdot \Delta x, \Delta x\rightarrow 0 \]

  1. 满足:
  • \(f(x) \geq 0\)
  • \(\int^{-\infty}_{\infty}f(x)dx = 1\)
  • 取个别值概率为 0 , 则端点值有没有无所谓.

2.3 分布函数(对离散 连续均成立)

  • 定义:
    \(F(x) = P(X \leq x)\),即 \(X\) 取值不超过 \(x\) 的概率,它是一个普通的实函数

  • 性质:

    1. $0\leq F(X) \leq 1, x \in (-\infty,+\infty) $

    2. \(F(x)\) 不减, 即 \(x_1 < x_2 \rArr F(x_1)<F(x_2)\)
      利用这个性质, 有:

    \[ \begin{aligned} \lim_{x \rightarrow +\infty}F(x) = 1\\ \lim_{x \rightarrow -\infty}F(x) = 0\end{aligned} \]

    可以用来求参数

  • \(F(x)\)右连续,且至多有可列个间断点 . 若为离散型, 则 \(F(x)\) 右连续, 若为连续性, 则 \(F(x)\) 不仅右连续, 还是连续的.
    以下公式对离散型和连续性均有用:

    • \(P\{X \leq a\} =F(a)\)

    • \(P\{X > a\} = 1-F(a)\)

    • \(P\{a<X \leq b\}= F(b)-F(a)\)

    • \(P\{X=a\}=F(a)-F(a-0)\) 此处的 0 意为无穷小

    • \(P\{a \leq X \leq b\} = F(b)-F(a-0)\)

    • \(P\{X<a\} = F(a=0)\)

    • \(P(X \geq a\} = 1-F(a-0)\)

2.3.1 离散型的分布函数

  • 由概率求分布函数:
\(X\) \(-2\) \(0\) \(1\) \(3\)
\(P\) \(\frac{1}{2}\) \(\frac{1}{4}\) \(\frac{1}{8}\) \(\frac{1}{8}\)

分段函数
由图可见,函数的每一段都是右连续的.

  • 由分布函数求概率:
    只需借助 \(P\{X=a\}=F(a)-F(a-0)\).

2.3.2 连续型的分布函数

\(F(x) = P\{X \leq x\}= \int_{-\infty}^{x}{f(x)}dx\)
两边同时求导可得\(F'(x)=f(x)\)

2.4 几种分布

2.4.1 离散型的分布

1. 0-1分布

  • 分布律
\(X\) \(1\) \(0\)
\(P\) \(p\) \(1-p\)
  • 特点:
    • 只做一次
    • 结果只有两种: \(p\{x=k\}=p^k(1-p)^{1-k}\)
  • 期望\(E(X)=p\)
  • 方差\(D(X)=p-p^2\)

2. 几何分布

\(A\)发生概率为 \(p\)\(P(A) = p\),第 \(k\) 次试验首次发生, 则前 \(k-1\) 次没有发生,
\(P\{X=k\}= (1-p)^{k-1}p\),\(X\)~\(G(p)\).

3. 二项分布

  • \(P(A) =p\),\(n\)次试验,发生 \(k\) 次的概率是 \(P\{X=k\}=C^k_np^k(1-p)^{n-k},k=1,2,3,...,n\),\(X\)~\(B(n,p)\)
  • 期望\(E(X)=np\)
  • 方差\(D(X)= np(1-p)\) 推导:因为每次试验都是互相独立的,所以将每次的都加起来

4. 泊松分布

  • 公式: \(P\{X=k\}=\frac{\lambda^k}{k!}e^{- \lambda},k=0,1,2,3,...,\lambda>0,X\)~\(P(\lambda)\)
  • 证明概率和为1:
    \(泰勒:e^x=\sum_{k=0}^{\infty}\frac{x^k}{k!},\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}e^{- \lambda}=e^{-\lambda}\sum_{k=0}^{\infty}\frac{\lambda^k}{k!}=e^{-\lambda} \cdot e^\lambda=1.\)
  • 适用范围:电台呼叫次数,公用设施(等车,摇号)
  • 泊松分布近似二项分布:
    • 适用范围:\(n\) 较大,\(p\) 较小, \(np\) 适中的时候. 当 \(n\rightarrow+\infty 时,\lambda \rightarrow np\).

例题: 银行有 1000 个账户,每户存了 10 万元. 每户提 2 万的概率是 0.006, 则银行应至少准备多少现金,可以有 95% 的概率满足用户需求?
设有 \(X\) 名用户来取钱,银行要准备 \(x\) 万元现金

\(\begin{aligned} \lambda =np=6\\ X\sim B(1000,0.006)\\ P\{2X \leq x\}\geq 0.95\\ 则 \sum_{k=0}^{\frac{x}{2}}\frac{6^k}{k!}e^{-6} \geq 0.95\\ \end{aligned} \)

查表即可求得 \(x/2 \geq 10\)

5. 超几何分布

  • 定义:一共有 \(N\) 个元素, \(N_1\) 个属于第一类,\(N_2\) 个属于第二类,取 \(n\) 个元素, \(X\) 代表这 \(n\) 个元素中属于第一类的个数.

    \[P\{X=k\}= \frac{C_{N_1}^kC_{N_2}^{n-k}}{C^n_N},k=0,1,2,....min\{n,N_1\} \]

  • 超几何分布:不放回试验. 但当 \(N\) 很大, \(n\) 很小的时候, 可近似视为放回抽样, 此时可以用二项分布近似. 例子:

    10000 粒种子, 发芽率 99%, 从中取出 10 粒, 有 k 粒发芽的概率:

    \[P\{X=k\}=\frac{C_M^{k}C_{10000-M}^{10-k}}{C_{10000}^{10}}\approx C_{10}^k0.99^k0.01^{10-k } \]

2.4.2 连续型的分布

1. 均匀分布

  • 密度函数满足:

    \[f(x)=\begin{cases} \frac{1}{b-a},a \leq x \leq b \\ 0, else\\ \end{cases}\]

    \(x\) 服从均匀分布,记作 \(x\sim \mathrm U[a,b]\)

2. 指数分布

  • 密度函数满足:

    \[f(x) = \begin{cases} \frac{1}{\theta} e^{-\frac{1}{\theta} x},x \gt 0\\ 0, x \leq 0\\ \end{cases}\]

    其中 \(\theta>0\) 时, \(X \sim \mathrm {Exp}(\theta)\)
  • 无记忆性: 举例说明: 已经买了 10 年的灯泡还能再用 1 年的概率与刚刚买的灯泡能再用一年的概率相等.

    \[P\{X>s+t|X>s\} = P\{X>t\} \]

    直接按定义求积分可以证明.

3. 正态分布

  • 密度函数:$$\displaystyle \phi(x) = \frac{1}{\sqrt{2\pi}\sigma}e{-\frac{(x-\mu)2}{2\sigma^2}},-\infty< x <+\infty$$ 记作 \(X \sim N(\mu,\sigma^2).\)

    \(\displaystyle \int_{-\infty}^{+\infty}e^{-x^2}dx=\sqrt{\pi}\) 可以证明\(\displaystyle \int_{-\infty}^{+\infty}\phi(x)dx = 1.\)

  • 分布函数:

    \[\Phi(x)=\frac{1}{\sqrt{2\pi\sigma}}\int_{-\infty}^{x}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx \]

  • 性质:

    1. \(y=\phi(x)\) 是以 \(x=\mu\) 为对称轴的钟形曲线. \(x = \mu\)时, \(\phi(x)\) 最大值\(\frac{1}{\sqrt{2\pi}\sigma}.\)

    2. \(y=\phi(x)\)\(x\) 轴为渐近线. \(x=\mu\plusmn\sigma\) 为拐点\(.\)

    3. \(\sigma\) 固定,\(\mu\) 变化, 图像左右移动;
      \(\mu\) 固定,\(\sigma\) 变化, 图像最高点变化.

  • 标准正态分布

    • \(\mu=0,\sigma=1.\)
    • 性质:
      • \(y\)轴为对称轴. 偶函数
      • \(\Phi_0(-x)=1-\Phi_0(x).\)
  • 举例: 身高体重,受多种因素影响,且每种因素影响都不大.

  • 将一般的正态分布化为标准正态分布:

    \[\begin{aligned} \phi(x)&=\frac{1}{\sigma}\phi_0(\frac{x-\mu}{\sigma})\\ \Phi(x)&=\Phi_0(\frac{x-\mu}{\sigma})\\ \end{aligned} \]

    做题时可以直接修改要求的 \(X\) ,如:
    \(\mu=1,\sigma=2,\)\(P\{-2 \leq X \leq 2\}=P\{\frac{-2-1}{2}\leq \frac{X-1}{2} \leq\frac{2-1}{2}\}=\Phi_0(0.5)-\Phi_0(1.5)\)

  • 3 \(\sigma\) 准则
    \(P\{|X-\mu|<\sigma\} =0.6826\)

    \(P\{|X-\mu|<2\sigma\} =0.9545\)

    \(P\{|X-\mu|<3\sigma\} = 0.9973.\)

  • \(X\sim N(0,1)\),给定 \(α(0<α<1)\),找出 \(v_α\) 使得\(p\{X>v_α\}=α,v_\alpha\)叫做上\(\alpha\) 分位数.

2.5 随机变量的函数的分布

2.5.1 离散型

  • 已知 \(X\) 服从某分布,求关于 \(X\) 的函数 \(Y\) 的分布.

  • 例子:

    \(X\) -1 0 1 2
    \(p_k\) 0.2 0.3 0.1 0.4

    \(Y=(x-1)^2\) 的分布律为:

    \(Y\) 0 1 4
    \(p_k\) 0.1 0.7 0.2

2.5.2 连续型

  • 随机变量 \(X\) 具有密度函数 \(f_x(x)\) ,求\(Y=g(X)\)的密度函数.

  • 步骤:

    1. \(F_Y(x)\rightarrow F_x(x)\),注意 \(F_Y(x) = p\{Y \leq x\},F_X(x) = p\{X \leq x\}\)
    2. 两侧同时求导:\(f_Y(x) \leftarrow f_X(x)\)
  • 例子 1:
    \(X\) 概率密度为 \(f_X(x)\),求 \(Y=3X+2\) 的概率密度.

    解:
    \(\begin{aligned} F_Y(x) &= P\{Y \leq x\}\\ &=P\{3X+2 \leq x\}\\ &=P\{X \leq \frac{x-2}{3}\}\\ &=F_X(\frac{x-2}{3})\\ 两边同时求导:\\ f_Y(x)&=\frac{1}{3}f_X(\frac{x-2}{3})\\ \end{aligned} \)

  • 例子 2:
    \(X\sim N(\mu,\sigma^2),Y=X^2,求Y\)的密度函数.
    按照上面方法,最后积分即可
    \(Y\) 服从卡方分布

  • 定理

    1. \(X\) 服从 \((a,b)\) 内的均匀分布, 则 \(Y=kX+c\) 也服从相应区间内的均匀分布.

      • \(k>0,(ka+c,kb+c)\)
      • \(k<0,(kb+c,ka+c)\)
        2. \(X \sim N(\mu,\sigma^2)\),\(Y=aX+b\),则 \(Y\sim N(a\mu+b,a^2\sigma^2)\).
        证明:可以用上面分布函数求积分的方法,也可以用
    2. \(X\) 的密度函数 \(f_X(x)\),\(Y=kX+b\),则\(f_Y(x)=\frac{1}{|k|}f_x(\frac{x-b}{k})\)

三. 期望和方差

3.1 数学期望

3.1.1 离散型数据的数学期望

  • \(P(X=x_k)= p_k,\)\(\sum^\infty_{k=1}x_kp_k绝对收敛,则E(X)=\sum^\infty_{k=1}x_kp_k\).
    注意:数学期望不一定均存在.

3.1.2 连续型数据的数学期望

  • \(X 的密度函数为 f(x),\int_{-\infty}^{\infty}xf(x)dx\) 绝对收敛,则\(Ex = \int_{-\infty}^{\infty}xf(x)dx\)

3.1.3 随机变量函数的期望

\(Y=g(X)\)

  • 离散 \(E(X)=\sum x_i p_i,Y=g(X)\)\(E(Y)=\sum g(x_i)p_i\)

3.1.4 期望的性质

  • \(EC=C\)
  • \(E(C_1X+C_2)=C_1EX+C_2\)
  • \(X,Y\)独立,则\(E(XY)=E(X)E(Y)\)
  • \(E(X \plusmn Y)=EX \plusmn EY\)

3.2 方差

3.2.1 方差的定义

  • \(DX = E((X-EX)^2)\)
  • 离散型: \(DX=\sum(X_k-EK)^2p_k\)
  • 连续型: \(DX=\sum_{-\infty}^{+\infty}(x-EX)^2f(x)dx\)

但是一般用\(DX=E(X^2)-(EX)^2\)计算.

3.2.2 方差的性质

  • \(DC=0\)
  • \(D(C_1X+C_2) = C_1^2DX\)
  • \(X,Y\)独立\(D(X \plusmn Y) = D(X)+D(Y)\)

3.3 常见分布的期望和方差

3.3.1 常见离散型的期望与方差

1. 0-1分布

  • \(EX = p\)
  • \(DX=E(X^2)-(EX)^2=p-p^2=p(1-p)\)

2. 二项分布

  • 期望
    \(X_i=\begin{cases} 1,第i次成功\\ 0,第i次失败\\ \end{cases}\),则\(E(X_i)=1 \times p+0 \times (1-p)=p,E(X)=E(\sum_{i=1}^nXi)=np\)

  • 方差
    \(DX=D(\sum_{i=1}^nXi)=np(1-p)\)

3. 几何分布

\(P\{X=k\}= (1-p)^{k-1}p\)
\(EX=\sum_{k=1}^nk(1-p)^{k-1}p=\frac{1}{p}\)运用级数求和
\(DX=\sum_{k=1}^nk^2(1-p)^{k-1}p=\frac{1-p}{p^2}\),借助\(\sum_{k=1}^\infty k^2X^{k-1}=\sum_{k=1}^\infty k \cdot kX^{k-1}=(\sum_{k=1}^\infty kX^k)'=(X\sum_{k=1}^\infty kX^{k-1})'=(\frac{X}{(1-X)^2})'=\frac{1-x}{x^2}\)

4. 泊松分布

\(P\{X=k\}=\frac{\lambda^k}{k!}e^{- \lambda},k=0,1,2,3,...,\lambda>0,X\)~\(P(\lambda)\)

  • \(EX=\sum_{k=0}^\infty k\frac{\lambda^k}{k!}e^{- \lambda}=\sum_{k=1}^\infty \frac{\lambda^k}{(k-1)!}e^{- \lambda}=\lambda \sum_{k=1}^\infty \frac{\lambda^{k-1}}{(k-1)!}e^{- \lambda}=\lambda \times 1=\lambda\)(可以用概率和为1).
  • 方差
    \(\begin{aligned}E(X^2)&=\sum_{k=0}^\infty k^2\frac{\lambda^k}{k!}e^{- \lambda}\\&=\sum_{k=1}^\infty k\frac{\lambda^k}{(k-1)!}e^{- \lambda}\\ &=\lambda\sum_{k=1}^\infty \frac{\lambda^{k-1}}{(k-1)!}e^{- \lambda}+\sum_{k=1}^\infty (k-1)\frac{\lambda^k}{(k-1)!}e^{- \lambda}\\&=\lambda+\sum_{k=2}^\infty \frac{\lambda^k}{(k-2)!}e^{- \lambda}\\&=\lambda+\lambda^{2}\sum_{k=2}^\infty \frac{\lambda^{k-2}}{(k-2)!}e^{- \lambda}\\&=\lambda+\lambda^2\\则DX&=\lambda+\lambda^2-\lambda^2=\lambda\end{aligned}\)

3.3.2 常见连续型的期望与方差

1. 均匀分布

  • \(f(x)=\begin{cases} \frac{1}{b-a},a \leq x \leq b \\ 0, else\\ \end{cases}\)

  • \(\begin{aligned} EX=\int_a^bx\frac{1}{b-a}dx=\frac{a+b}{2}\end{aligned}\)

  • \(\begin{aligned}E(X^2)=\int_a^bx^{2}\frac{1}{b-a}dx=\frac{b^2+ab+a^2}{3}\end{aligned}\)

    \(\begin{aligned}DX=\frac{b^2+ab+a^2}{3}-(\frac{a+b}{2})^2=\frac{(b-a)^2}{12}\end{aligned}\)

2. 指数分布

  • \(f(x) = \begin{cases} \frac{1}{ \theta} e^{-\frac{1}{ \theta} x},x \gt 0\\ 0, x \leq 0\\ \end{cases}\)

  • 期望
    \(\begin{aligned}EX&=\int_{0}^{\infty}x\cdot \frac{1}{ \theta} e^{-\frac{1}{ \theta} x}dx&=\theta\end{aligned}\)

  • 方差
    \(\begin{aligned}D(X^2)=\int_{0}^{\infty}x^{2}\cdot \frac{1}{ \theta} e^{-\frac{1}{ \theta} x}dx = \theta^{2}\end{aligned}\)

3. 正态分布

  • \(E(X)=\mu,D(X)=\sigma^2\)
    证明:
    \(Z=\frac{X-\mu}{\sigma}\),则 \(Z\sim N(0,1)\)

    \(E(Z)=\displaystyle\int_{-\infty}^{+\infty}x\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx=0\)

    \(D(Z)=E(X^2)-(EX)^2=1\)

    然后\(E(X)=E(\sigma Z+\mu)=\mu,D(X)=D(\sigma Z+\mu)=\sigma^2\)

3.4.

3.4.1. 协方差

当随机变量\(X,Y\) 独立时, \(D(X+Y) = D(X)+D(Y)\).

当不独立的时候, \(D(X+Y) = E((X+Y)^2)-(E(X+Y))^2\), 化简可以得到:

\[\bold{定理}: D(X ± Y) = D(X)+D(Y)±2E((X-EX)(Y-EY) \]

其中协方差 \(Cov(X,Y)=E((X-EX)(Y-EY))\)

推论: \(E(XY)-E(X)E(Y)=Cov(X,Y)\)

\(Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)\)

3.4.2. 相关系数

\[\displaystyle \rho _{X,Y}=\frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}} \]

3.5 中心距和原点矩

  • \(k\) 阶原点矩: \(EX^k\). 例:\(EX\) 一阶原点矩.
  • \(k\) 阶中心距: \(E((X-EK)^k)\). 例: 一阶中心距:0; 二阶中心矩:\(E((X-EX)^2)\),即方差.

四. 大数定律与中心极限定理

4.1 大数定律

  • 大量重复实验的平均结果的稳定性.

5.1.1. 马尔可夫不等式

  • \(P\{X\geq a\}\leq\displaystyle\frac{EX}{a}\)

  • 证明:\(EX=\displaystyle\int_0^{\infty}xf(x)dx=\int_a^{\infty}xf(x)dx+\int_0^{a}xf(x)dx\geq\int_a^{\infty}xf(x)dx\geq\int_a^{\infty}af(x)dx=aP\{X\geq a\}\)

4.1.2. 切比雪夫不等式

  • 定理: 若 \(EX\)\(DX\) 均存在, \(\forall ε>0\),均有 \(\begin{aligned}P\{|X-EX|\geq ε\} \leq \frac{DX}{ε^2}\end{aligned}\)

    证明:

    \(\begin{aligned}P\{|X-EX|\geq ε\}&=\int_{|X-EX|\geq ε}f(x)dx \\\\&\leq {\int_{|X-EX| \geq ε}\frac{|X-EX|^2}{ε^2}f(x)dx}\\\\&\leq {\int_{-\infty}^{+\infty}\frac{(X-EX)^2}{ε^2}f(x)dx}\\ \\&\leq\frac{DX}{ε^2} \end{aligned}\)

4.1.3. 切比雪夫大数定律

  • 依概率收敛: \(X_n \underrightarrow{P}a, \forall ε>0,\exist N>0 使得当 n>N 时,有 P\{|X_n-a| \leq ε\}=1\)

伯努利大数定律

  • \(n\) 重伯努利试验, \(A\) 发生了 \(m_n\) 次, \(P\) 为概率,则 \(\displaystyle\lim_{n\rightarrow+\infty}P\{|\frac{m_n}{n}-P|\leq ε\}=1\)
    证明:
    \(\begin{aligned} &m_n\sim B(n,p),Em_n=np,Dm_n=np(1-p),\\ &E(\frac{m_n}{n})=p,D(\frac{m_n}{n})=\frac{p(1-p)}{n}\\ &1\geq P\{|\frac{m_n}{n}-P|\leq ε\}\geq 1-\frac{\frac{p(1-p)}{n}}{ε^2}\rightarrow1,n\rightarrow+\infty\\ \end{aligned}\)

切比雪夫大数定律

  • \(X_1,...,X_n\)不相关(没有线性关系)的变量,\(EX_i\)\(DX_i\) 均存在,且方差有界,,\(DX_i \leq M\), 则 \(\forallε>0\) ,有\(\displaystyle\lim_{n\rightarrow\infty}P\{|\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i-\frac{1}{n}\displaystyle\sum_{i=1}^{n}EX_i|<ε\}=1\)

    证明:

    \[\begin{aligned} &E(\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i)=\frac{1}{n}\sum_{i=1}^n(EX_i),\\ &D(\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i)=\frac{1}{n^2}\sum_{i=1}^n(DX_i)\leq \frac{M}{n}\\ 则&1\geq\lim_{n\rightarrow\infty}P\{|\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i-\frac{1}{n}\displaystyle\sum_{i=1}^{n}EX_i|<ε\} \geq 1-\frac{D\Bigg(\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i\Bigg)}{ε^2} \geq 1-\frac{M}{nε^2}=1\\ \end{aligned}\]

辛钦大数定律

  • \(X_1,...,X_n\)独立同分布的变量,\(EX_i=\mu\),( 注:方差无要求 ) , 则 \(\forallε>0\) ,有\(\displaystyle\lim_{n\rightarrow\infty}P\{|\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i-\mu|<ε\}=1\)

    证明: 同样可用切比雪夫不等式.

4.2 中心极限定理

  • 现象由大量相互独立的因素影响, 大量独立同分布的变量和极限分布是正态分布.

  • 定理: 随机变量 \(X_1, X_2,...,X_n\) 独立同分布, 且 \(E(X_i)=\mu,D(X_i)=\sigma^2>0(i=1,2,3...),\)则随机变量之和\(\displaystyle\sum_{i=1}^{n}X_i\)的标准化变量

    \[Y_n=\frac{\displaystyle\sum_{i=1}^{n}X_i-E(\sum_{i=1}^{n}X_i)}{\displaystyle\sqrt{D(\displaystyle\sum_{i=1}^{n}X_i)}}=\frac{\displaystyle\sum_{i=1}^{n}X_i-n\mu}{\sqrt{n}\sigma} \]

    的分布函数 \(F_n(x)\) 对于任意 x 满足

    \[\begin{aligned} \lim_{n\rightarrow{\infty}}F_n(x)&=\lim_{n\rightarrow{\infty}}P\lbrace\frac{\displaystyle\sum_{i=1}^{n}X_i-n\mu}{\sqrt{n}\sigma}\leq x\}\\&=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{x^2}{2}}dx=\Phi_0(x)\end{aligned}\]

    即该标准化变量近似服从标准正态分布:

    \[\frac{\displaystyle\sum_{i=1}^{n}X_i-n\mu}{\sqrt{n}\sigma}\sim N(0,1) \]

    可以改写成

    \[\frac{\overline{X}-\mu}{\sigma n^{-\frac{1}{2}}}\sim N(0,1)或者\overline{X} \sim N(\mu,\frac{\sigma^2}{n}) \]

  • e.g. 顾客有\(100\)人,在 \([0,60]\) 内均匀分布,独立,日销售额超 3500 概率为.

5.1. 总体与样本

5.2. 常用统计量

定义

  • 样本均值: \(\overline{X}=\displaystyle\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i\)

  • 修正后的样本方差: \(\begin{aligned}S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\end{aligned}\)

样本均值和样本方差的性质

  • 定理: 设总体\(X\)的均值为\(EX=\mu\),方差为\(DX=\sigma^2\),样本{\(X_1,X_2,\ldots ,X_n\)} 来自总体\(X\) ,则:
    • \(E\overline{X}=\mu\)
    • \(\displaystyle D\overline{X} = \frac{1}{n}\sigma^2\)
    • \(ES^2=\sigma^2\)
  • 前两者证明略. \(ES^2=\sigma^2\) 的证明:
    \(\begin{aligned} & \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\sum_{i=1}^{n}\left[\left(X_{i}-\mu\right)-(\bar{X}-\mu)\right]^{2} \\=& \sum_{i=1}^{n}\left[\left(X_{i}-\mu\right)^{2}-2\left(X_{i}-\mu\right)(\bar{X}-\mu)+(\bar{X}-\mu)^{2}\right] \\=& \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu) \sum_{i=1}^{n}\left(X_{i}-\mu\right)+\sum_{i=1}^{n}(\bar{X}-\mu)^{2} \\=& \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu)\left(\sum_{i=1}^{n} X_{i}-\sum_{i=1}^{n} \mu\right)+n(\bar{X}-\mu)^{2} \\=& \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2(\bar{X}-\mu)(n \bar{X}-n \mu)+n(\bar{X}-\mu)^{2} \\=& \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-2 n(\bar{X}-\mu)^{2}+n(\bar{X}-\mu)^{2} \\=& \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-n(\bar{X}-\mu)^{2} \end{aligned}\)
    \(\begin{aligned} \text { 有: } & \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-n(\bar{X}-\mu)^{2} \\ & E S^{2}=E\left[\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right] \\ &=\frac{1}{n-1} E\left[\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-n(\bar{X}-\mu)^{2}\right] \\ &=\frac{1}{n-1}\left\{E\left[\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}\right]-n E(\bar{X}-\mu)^{2}\right\} \\ &=\frac{1}{n-1}\left[\sum_{i=1}^{n} E\left(X_{i}-\mu\right)^{2}-n D \bar{X}\right] \\ &=\frac{1}{n-1} [ \sum_{i=1}^{n} D X_{i}-n D \bar{X} ] \\ &=\frac{1}{n-1}\left(n \sigma^{2}-n \frac{1}{n} \sigma^{2}\right)=\sigma^{2} \end{aligned}\)

5.3. 抽样分布

5.3.1. 三种重要分布

1. 卡方分布(\(\chi^2\)分布)

  • 定理: 设随机变量 \(X_{1}, X_{2}, \ldots, X_{n}\) 相互独立,且服从标准正态分布,则他们的平方和 \(\chi^{2}=X_{1}^{2}+X_{2}^{2}+\ldots+X_{n}^{2}\) 服从的分布称为自由度为 \(n\) 的卡方分布.记作: \(X \sim \chi^2(n)\).
    其中自由度表示独立的随机变量的个数.

  • 密度函数:
    \(f(x)=\left\{\begin{array}{ll}\frac{1}{2^{\frac{n}{2}} \Gamma\left(\frac{n}{2}\right)} e^{-\frac{x}{2}} x^{\frac{n}{2}-1}, & \text { 当 } x>0 \text { 时 } \\ 0 & , \text { 当 } x \leq 0 \text { 时 }\end{array}\right.\)

  • 结论:若\(X \sim \chi^2(n)\) 则:\(EX = n, DX = 2n\)

  • 定理:若\(X \sim \chi^2(m)\),\(Y \sim \chi^2(n)\),则\(X+Y \sim \chi^2{(m+n)}\)

    • 推论:
      \(\begin{aligned}(1)&\quad \text { 若 } X_{i} \sim \chi^{2}\left(n_{i}\right), \quad i=1,2, \ldots, n, \text { 且相互独立, } \quad \text { 则 }:\\\text { }\\\end{aligned}\)$$\left(\sum_{i=1}^{n} X_{i}\right) \sim \chi{2}\left(\sum_{i=1} n_{i}\right)$$

      (2)若 \(X_{1}, X_{2}, \ldots, X_{n}\) 相互独立,同服从于正态分布 \(N\left(\mu_{i}, \sigma_{i}^{2}\right),\)

\[\sum_{i=1}^{n}\left(\frac{X_{i}-\mu_{i}}{\sigma_{i}}\right)^{2} \sim \chi^{2}(n) \]

2.\(t\) 分布

  • 定理:\(\boldsymbol{X} \sim \boldsymbol{N}(0,1), \boldsymbol{Y} \sim \chi^{2}(n), \boldsymbol{X},\boldsymbol{Y},\) 独立,则 称随机变量

\[\boldsymbol{T}=\frac{\boldsymbol{X}}{\sqrt{\boldsymbol{Y} / \boldsymbol{n}}}=\frac{\boldsymbol{X}}{\sqrt{\boldsymbol{Y}}} \sqrt{\boldsymbol{n}} \]

服从的分布为自由的为 \(n\)\(t-\) 分布.当自由度很大时,\(t\) 分布无限趋近于标准正态分布.

  • 性质:因为该分布是对称的, \(\boldsymbol{t}_{1-\alpha}(\boldsymbol{n})=-\boldsymbol{t}_{\alpha}(\boldsymbol{n})\)

3. \(F\) 分布

  • 定理:若 \(\boldsymbol{X} \sim \chi^{2}\left(n_{1}\right), \boldsymbol{Y} \sim \chi^{2}\left(n_{2}\right), \boldsymbol{X}, \boldsymbol{Y}\) 独立,
    则 随机变量 \(\quad \boldsymbol{F}=\frac{\boldsymbol{X} / \boldsymbol{n}_{1}}{\mathbf{Y} / \boldsymbol{n}_{2}} \quad\) 所服从的分布为自由度是\((n_1,n_2)\)\(\boldsymbol{F}\) 分布,\(n_1,n_2\) 分别为第一自由度,第二自由度.

5.3.2. 正态总体下的抽样分布

  • 总体是正态分布, 抽样本, 构造统计量的分布.

  • 定理: \(X\sim N(\mu , \sigma^2)\) ,\(\{X_1\ldots X_n\}\) 为样本,则
    (1) \(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)
    (2) \(\displaystyle \frac{(n-1) S^{2}}{\sigma^{2}}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} \sim \chi ^{2}(n-1)\) 证明较复杂,略
    (3) \(\overline{X}\)\(S^2\) 独立

  • 定理: (前提与上面的相同)
    (1) \(\displaystyle \sum^{n}_{i=1}(\frac{X_i-\mu}{\sigma})^2= \frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} \sim \chi ^{2}(n)\) 上面的自由度为 \(n-1\) 下面的为 \(n\) ,可借助"多一个方程,自由未知量少一个来理解"
    (2) \(\displaystyle\frac{\bar{X}-\mu}{S} \sqrt{n} \sim t(n-1)\)

    \(\begin{aligned}证明: &\displaystyle\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)···①,\\&\frac{(n-1) S^{2}}{\sigma^{2}}\sim\chi^2(n-1)···② 则\\&\frac{①}{\sqrt{②/(n-1)}}=\displaystyle\frac{\bar{X}-\mu}{S} \sqrt{n} \sim t(n-1)\end{aligned}\)

    • 定理: 两个正态总体 \(X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2),X取了n_1个,Y取了n_2个,\bar{X},\bar{Y},S_1^2,S_2^2\),则
      (1) \(\displaystyle\bar{X}-\bar{Y} \sim N\left(\mu_{1}-\mu_{2}, \frac{\sigma^2_{1}}{n_{1}}+\frac{\sigma_{2}^2}{n_{2}}\right)\)
      (2) \(\displaystyle\frac{S_{1}^{2} / \sigma_{1}^{2}}{S_{2}^{2} / \sigma_{2}^{2}} \sim F\left(n_{1}-1 , n_{2}-1\right)\)

六. 参数估计

  • 总体分布 X 的分布形式已知,未知的只是分布中的参数,要估计的只是参数或者参数的某一函数.

6.1. 参数的点估计

6.1.1. 矩估计法

  • 公式
    \(\begin{aligned}\bullet\ \displaystyle&\frac{1}{n}\sum_{i=1}^{n}x_i^k=A_k=\mu_k=E(x^k)\\&样本矩 \qquad\qquad\quad\quad 总体矩 \end{aligned}\)

  • 注意: 样本阶中的计算都是 \(n\) 而不会用到样本方差 \(S^2\)

6.1.2. 极大似然估计

  • 估计参数值,使得出现该样本的可能性最大.

  • \(X\) \(X_1\) \(X_2\) \(X_3\) \(\ldots\) \(X_n\)
    \(P\)(离散型) \(P_1\) \(P_2\) \(P_3\) \(\ldots\) \(P_n\)
    \(P\)(连续型) \(f(X_1)\) \(f(X_2)\) \(f(X_3)\) \(\ldots\) \(f(X_n)\)

    似然函数 \(\begin{aligned}\\ &L(\theta)=P_1P_2P_3\ldots P_n(离散型) \\ &L(\theta)=f(X_1)f(X_2)f(X_3)\ldots f(X_n)(连续型)\end{aligned}\)
    \(L'(\theta)=0\)(等价于\((\ln(L(\theta)))'=0\)),得到一阶导函数零点,进而求得最大值.

  • 注意: 可能求出多个可能的 \(p\), 保证样本每一项的概率都为正进行舍去.

6.2. 点估计的优良性准则

1. 无偏性

\(\begin{aligned}&\text { 令}\hat{\theta}{为参数 } \theta\text { 的估计量 }\\&\text { 定义:如果对一切 } \theta \in \Theta, \text { 有 } E \hat{\boldsymbol{\theta}}=\boldsymbol{\theta}成立,则称\hat\theta为参数\theta 的无偏估计量.\end{aligned}\)

  • 例1: 总体 \(X\) ,\(EX=\mu,DX=\sigma^2\),样本为\((X_1,X_2\ldots X_n)\),则

    • \(\bar{X}\)\(\mu\) 的无偏估计.
    • 样本方差 \(S^2\)\(\sigma^2\) 的无偏估计.
    • 非修正样本方差是 \(\sigma^2\) 的有偏估计.

注意:例1 永远成立, 与总体分布类型无关.

  • 例2: \(S^2\)\(\sigma^2\) 的无偏估计, \(S\) 不一定是 \(\sigma\) 的无偏估计.

    • 可得到结论: \(\hat\theta\)\(\theta\) 的无偏估计, \(g(\hat{\theta})\) 不一定是 \(\theta\) 的无偏估计.

    \(\begin{aligned} 证明:&\\ &DS = ES^2 - (ES)^2=\sigma^2-(ES)^2 \\ &ES = \sqrt{\sigma^2-DS} \leq \sigma \\ \end{aligned}\)

  • 例3:\(\quad \mathcal{\mu}= EX. \quad\left(X_{1}\cdots X_{n}\right)\)
    \(\hat{\mu}=C_{1} X_{1}+\cdots+C_{n} X_{n}\)
    \(C_{1}+C_{2}+\cdots +C_{n}=1\)
    \(\hat\mu\)\(\mu\) 的无偏估计

2. 有效性

  • \(D\left(\hat{\theta}_{1}\right) \leq D\left(\hat{\theta}_{2}\right)\) 方差越小越有效
  • 例: 可以证明, \(D(X_i) \geq D(\bar{X}), D(a_1X_1+a_2X_2\cdots a_nX_n) \geq D(\bar{X})\)

3. 相合性(一致性)

  • \(\displaystyle\lim _{n \rightarrow+\infty} p(|\hat{\theta}-\theta|<\varepsilon)=1\)

6.3. 参数的区间估计

  • 找两个估计量 \(\hat\theta_1,\hat\theta_2(\hat\theta_1 < \hat\theta_2)\) 为端点的区间\([\hat\theta_1,\hat\theta_2]\) 来估计\(\theta.\)
    • 可靠度: 要求区间以很大的可能性包含 \(\theta\) ,即 \(P\{\hat\theta_1 <\theta <\hat\theta_2\}.\)要尽可能大
    • 精度: 精度要尽可能高,即区间长度要尽可能小.

6.3.1. 置信区间和枢轴变量

置信区间

  • 定义:

    • 对于给定的 \(\alpha(\boldsymbol{0}<\alpha<1),\) 如果

      \[{P}\left(\hat{\theta}_{1} \leq \theta \leq \hat{\theta}_{2}\right)=1-\alpha \]

      则称区间\([\hat\theta_1,\hat\theta_2]\)置信区间\(, 1-\alpha\)置信度(置信系数),\(\hat\theta_1,\hat\theta_2\) 分别被称为置信下限置信上限.其中 \(\alpha\) 一般取 0.05.

    注意: 求置信区间, 就是找一个区间能够 "框住" \(\theta\) , 因为 \(\theta\) 虽然未知,却是确定的.

枢轴变量

  • \(I=I(T,\theta)\),其中,\(\theta\) 是未知的待估参数, \(T\) 是已知的与 \(\theta\) 有关的统计量, \(I\) 服从的分布 \(\boldsymbol{F}\) 已知且与 \(\theta\) 无关.
  • 给定 \(1-\alpha\) , 确定 \(\boldsymbol{F}\) 的上 \(\frac \alpha 2\) 分位数 \(u_{\frac \alpha 2}\) 和上 \((1-\frac \alpha 2)\) 分位数\(u_{1-\frac \alpha 2}\)
  • \(P\{u_{\frac \alpha 2}\leq I(T,\theta)\leq u_{\frac \alpha 2}\} = 1-\alpha\), 据此可以求得置信区间.

6.3.2. 单正态总体参数的区间估计

估计 \(\mu\)

  • \(\sigma^2\) 已知
    • 枢轴变量 \(U = \displaystyle\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\), 然后查表求得 \(u_\frac \alpha 2\) 再根据对称求得 \(u_{1 - \frac \alpha 2}.\)
  • \(\sigma^2\) 未知
    • 枢轴变量 \(U = \displaystyle\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)\)

估计 \(\sigma^2\)

  • \(\mu\) 已知
    • 枢轴变量 \(U=\displaystyle\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} \sim \chi ^{2}(n)\)
  • \(\mu\) 未知
    • 枢轴变量 \(U=\displaystyle \frac{(n-1) S^{2}}{\sigma^{2}} \sim \chi ^{2}(n-1)\)
  • 注意卡方分布图像不是对称的,所以上分位点必须求两个.

6.3.2. 双正态总体参数的区间估计

估计均值差 \(\mu_1-\mu_2\)

  • \(\sigma_1^2,\sigma_2^2\) 已知

    • \(\begin{aligned}枢轴变量 \boldsymbol{U}=\frac{(\overline{\boldsymbol{X}}-\overline{\boldsymbol{Y}})-\left(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2}\right)}{\sqrt{\frac{\boldsymbol{\sigma}_{\mathbf{1}}^{\mathbf{2}}}{\mathbf{n}_{\mathbf{1}}}+\frac{\boldsymbol{\sigma}_{\mathbf{2}}^{\mathbf{2}}}{\mathbf{n}_{\mathbf{2}}}} }\sim \boldsymbol{N}(\mathbf{0}, \mathbf{1}) \end{aligned}\)
  • \(\sigma_1^2=\sigma_2^2=\sigma^2\) 未知

    • 枢轴变量\(T=\displaystyle\frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\frac{\left(n_{1}-1\right) S_{1}^{2}+\left(n_{2}-1\right) S_{2}^{2}}{\left(n_{1}+n_{2}-2\right)}} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t\left(n_{1}+n_{2}-2\right)\)

估计方差比 \(\displaystyle{\sigma^2_1}/{\sigma^2_2}\)

  • \(\mu_1,\mu_2\) 未知
    • 枢轴变量 \(\displaystyle\frac{S_{1}^{2} / \sigma_{1}^{2}}{S_{2}^{2} / \sigma_{2}^{2}} \sim F\left(n_{1}-1 , n_{2}-1\right)\)

七. 假设检验

7.1. 假设检验

7.1.1. 假设检验问题

  • 参数估计:讨论如何根据样本得到总体分布所含参数的优良估计.
  • 假设检验:讨论怎样在样本的基础上观察上面所得到的估计值与真实值之间在统计意义上相拟合,从而做出一个有较大把握的结论.
  • 例子: 设菜厂生产一种灯管,其寿命X \(\sim \mathrm{N}(\mu, 40000),\) 从过去较长一段 时间的生产情况看,灯管的平均寿命为 1500 小时,现在使用了新工艺后,在所生产的灯管中抽取25只,测得的平均寿命为1675 小时,问:采用新工艺后,灯管的寿命是否有显著提高?
    为了判别新产品的寿命是否显著提高,提出两个假设:
    • 原假设 \(H_0:\)
      • 新产品的寿命 \(\mu=1500\)
      • 接受 \(H_0:\) 新产品寿命没有提高
    • 备择假设 \(H_1:\)
      • 新产品的寿命 \(\mu > 1500\)
      • 拒绝 \(H_0:\)(接受\(H_1\)) 新产品的寿命有所提高.
    • 注意:一般情况下,将希望成立的假设设为 \(H_1\) ,将其否定形式设为 \(H_0\)
  • 假设检验问题的处理方法
    1. 作出参数或者分布的假设.
    2. 根据样本值选择接受还是拒绝所作假设的结论.

7.1.2. 基本概念

  • 假设: 对总体分布的各种论断
    • 参数假设: 对总体分布中参数的假设
    • 非参数假设: 不是关于总体分布中的参数的假设(如对分布的假设)
  • 假设检验: 判断假设是否成立
    • 参数假设检验
    • 非参数假设检验
  • 假设检验问题
    • 过程
      • 对总体分布中的某些参数或对总体分布的类型做某种假设.
      • 根据样本值做出接受还是拒绝所作假设的结论.
    • 分类
      • 只提出一个假设,显著性检验问题.
      • 提出两个假设(\(H_0,H_1\)),且两者必居其一,则称其中一个为基本假设,另一个为它的对立假设.

7.1.3 基本思想

  • 由样本构造用于检验 \(H_0\)检验统计量 \(T\), 并且当 \(H_0\) 成立的时候, \(T\) 的分布已知.
  • 检验法则的确定
    • \(P\{|T| \geq {k}\} = \alpha\) 是一个小概率事件.若 \(H_0\) 为真, 几乎不可能发生.
    • \(|T| \geq {k}\), 拒绝原假设 \(H_0\),此时 \(T\) 的取值范围被称为拒绝域.拒绝域的边界点为临界点.
    • \(|T| < {k}\), 接受原假设 $H_0. $
  • 一般步骤
    • 第一步 根据问题的要求提出原假设 \(H_{0}\) 和备择假没 \(H_{1}\)
    • 第二步 选取检验统计量 \(T\left({X_{1}, X_{2}, \ldots, X_{n}}\right),\)\(H_{0}\) 成立的情形下确定 其分布.
    • 第三步 对于给定的显著性水平 \(\alpha\),找到 \(H_{0}\) 的拒绝域 \(W\) 和接受域.
    • 第四步 根据样本值 \(\left(x_{1}, x_{2}, \ldots, x_{n}\right)\) 求出检验统计值 \(T,\) 如果 \(\left(x_{1}, x_{2}, \ldots, x_{n}\right) \in \mathrm{W}\left(\right.\) 小概率事件发生了), 则拒绝 \(\mathrm{H}_{0},\) 否则接受 \(\mathrm{H}_{0}\)

7.1.4. 假设检验中的两类错误

  • 第一类错误: 弃真
    • \(P\{拒绝H_0|H_0为真\}=\alpha\)
  • 第二类错误: 取伪
    • \(P\{接受H_0|H_0为假\}=\beta\)

7.2. 参数假设检验

7.2.1 单总体 Z 检验

(1) 建立于均值的备择假设和原假设,选定合适的显著性水平\(\alpha\)
(2)建立检验统计量乙,满足Z \(\sim \mathrm{N}(0,1),\) 根据样本数据计算检验统计量数值Z。
(3)根据检验统计量数值 Z 和显著性水平\(\alpha\),计算拒绝域。
(4)根据样本是否落入拒绝域作出判断, 有需要可以进一步输出 p 值(比样本观察更极端的概率)。

\[\begin{array}{|c|c|c|c|} \hline \text { 检验方向 } & \text { 原假设 } \mathrm{H}_{0} & \text { 备择假设 } \mathrm{H}_{1} & \text { 拒绝域 } \\ \hline \text { 右边检验 } & \mu \leq \mu_{0} & \mu>\mu_{0} & z \geq z_{\alpha} \\ \hline \text { 云边检验 } & \mu \geq \mu_{0} & \mu<\mu_{0} & z \leq-z_{\alpha} \\ \hline \text { 双边检验 } & \mu=\mu_{0} & \mu \neq \mu_{0} & |z| \geq z_{\frac{\alpha}{2}} \\ \hline \end{array} \]

例题:

一种机床加工的零件尺寸绝对平均误差为1.35mm。生产厂家现采用一种新的
行加工以期进一一步降低误差。为检验新机床加工的零件平均误差与旧机床相比
是否有显著降机床进尺寸的平均误差与旧机床相比是否有显著降低?
(a=0.01)尺寸的平均误差与旧机床相比是否有显著降低?(\(\alpha\)=0.01)

\[\begin{array}{|cccccccccc|} \hline 1.26 & 1.13 & 0.98 & 1.12 & 1.23 & 0.99 & 1.98 & 1.11 & 1.70 & 1.17 \\ 1.19 & 0.96 & 1.10 & 1.12 & 0.74 & 1.45 & 1.97 & 1.54 & 2.37 & 1.12 \\ 1.31 & 1.06 & 1.12 & 0.95 & 1.50 & 1.24 & 0.91 & 1.08 & 1.38 & 1.23 \\ 0.97 & 1.00 & 1.03 & 1.02 & 0.50 & 1.01 & 1.22 & 1.10 & 1.60 & 0.82 \\ 1.81 & 0.94 & 1.16 & 1.13 & 0.59 & 2.03 & 1.06 & 1.64 & 1.26 & 0.86 \\ \hline \end{array} \]

解:
建立假设: \(\quad H_{0}: \mu \geq 1.35, H_{1}: \mu<1.35\)
\(\bar{x}=1.3152, s=0.365749, n=50,\) 计算检验统计量:

\[z=\frac{1.3152-1.35}{0.365749 / \sqrt{50}}=-2.6061<-z_{0.01}=-2.33 \]

结论:拒绝 \(\mathrm{H}_{0^{\circ}}\) 新机床加工的零件尺寸的平均误差与旧机床相比有显著降低。
计算p值

\[\text { p值= } \Phi(-2.6061)=1-\Phi(2.6061)=0.004579<\alpha=0.01 \]

根据p值和 我们可以得到同样的结论:拒绝H \(_{0}\)

PS: 这道题中样本总体方差是未知的, 本来应该用 t 检验, 但是在样本容量大于 30 的时候可以用 Z 检验代替 t 检验, 所以此处直接用样本方差代替了总体方差.

7.2.2. 双总体Z检验

\[\begin{array}{|c|c|c|c|} \hline \text { 检验方向 } & \text { 原假设 } \mathrm{H}_{0} & \text { 备择假设 } \mathrm{H}_{\mathbf{1}} & \text { 拒绝域 } \\ \hline \text { 右边检验 } & \mu_{1}-\mu_{2} \leq \delta & \mu_{1}-\mu_{2}>\delta & z \geq z_{\alpha} \\ \hline \text { 左边检验 } & \mu_{1}-\mu_{2} \geq \delta & \mu_{1}-\mu_{2}<\delta & z \leq-z_{\alpha} \\ \hline \text { 双边检验 } & \mu_{1}-\mu_{2}=\delta & \mu_{1}-\mu_{2} \neq \delta & |z| \geq z_{\frac{\alpha}{2}} \\ \hline \end{array} \]

1.检验条件: 两个总体近似服从正态分布且两总体方差\(\sigma_1^2 ,\sigma_2^2\) 均已知, 则构造的统计量\(Z = \frac{(\bar{X}-\bar{Y})-\delta}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}}\sim N(0,1)\)

2.检验条件:两个总体不服从正态分布,但来自两总体的样本的容量较大 \(\left(n_{1}, n_{2} \geqslant 30\right)_{\circ}\) 则我们构造检验统计量Z如下: \(\quad Z=\frac{(\bar{X}-\bar{Y})-\delta}{\sqrt{S_{1}^{2} / n_{1}+S_{2}^{2} / n_{2}}} \sim \mathrm{N}(0,1)\)

7.2.3. 单总体 t 检验

t检验的基本步骤:
(1)建立关于均值的备择假设和原假设,选定合适的显著性水平\(\alpha\)
(2)建立检验统计量t,满足t \(\sim \mathrm{t}\left(n^{\prime}\right),\) 根据样本数据计算检验统计量数值t。
(3) 根据检验统计量数值t和显著性水平\(\alpha\),计算拒绝域。
(4) 根据样本是否落入拒绝域作出判断,如有需要可以进一步输出值。

\[\begin{array}{|c|c|c|c|} \hline 检验方向 & 原假设 \mathrm{H}_{0} & 备择假设 \mathrm{H}_{1} & 拒绝域 \\ \hline 右边检验 & \mu \leq \mu_{0} & \mu>\mu_{0} & t \geq t_{\alpha}(n-1) \\ \hline 左边检验 & \mu \geq \mu_{0} & \mu<\mu_{0} & t \leq-t_{\alpha}(n-1) \\ \hline 双边检验 & \mu=\mu_{0} & \mu \neq \mu_{0} & |t| \geq t_{\frac{\alpha}{2}}(n-1) \\ \hline \end{array} \]

7.2.4.双总体 t 检验

公式参照参数估计

7.2.5. 卡方检验

\(\chi^{2}\) 检验的基本步骤:
(1) 进立关于方差的备择假设和原假设, 选定合适的显著性水平 \(\alpha_{\circ}\)
(2) 建立检验统计量 \(\chi^{2},\) 满足 \(\chi^{2} \sim \chi^{2}\left(n^{\prime}\right)^{1},\) 根据样本数据计算检验统计量数值 \(\chi^{2}\)
(3) 根据检验统计量数值 \(\chi^{2}\) 和显著性水平 \(\alpha,\) 计算拒绝域。
(4) 根据样本是否落入拒绝域作出判断, 如有需要可以进一步输出 \(p\) 值。

\[\chi^{2}=\frac{(n-1) S^{2}}{\sigma_{0}^{2}} \sim \chi^{2}(n-1) \]

\[\begin{array}{|c|c|c|c|} \hline \text { 检验方向 } & \text { 原假设 } H_{0} & \text { 备择假设 } H_{1} & \text { 拒绝域 } \\ \hline \text { 右边检验 } & \sigma^{2} \leq \sigma_{0}^{2} & \sigma^{2}>\sigma_{0}^{2} & \chi^{2} \geq \chi_{\alpha}^{2}(n-1) \\ \hline \text { 左边检验 } & \sigma^{2} \geq \sigma_{0}^{2} & \sigma^{2}<\sigma_{0}^{2} & \chi^{2} \leq \chi_{1-\alpha}^{2}(n-1) \\ \hline \text { 双边检验 } & \sigma^{2}=\sigma_{0}^{2} & \sigma^{2} \neq \sigma_{0}^{2} & \chi^{2} \geq \chi_{\frac{\alpha}{2}}^{2}(n-1) \text { 或 } \chi^{2} \leq \chi_{1-\frac{\alpha}{2}}^{2}(n-1) \\ \hline \end{array} \]

例题: 生产的某型号电池,其寿命服从方差 \(\sigma^2=5000\) 的正态分布.随机取26个电池,测出样本方差为 \(\mathrm{s}^{2}=9200,\) 问能否推断波动较以往显著变化 \((\alpha=0.02)\) ?

7.2.6. F检验

原理与上面的类似, 公式参照参数估计

7.3. 非参数假设检验

7.3.1 符号检验

例: 某地 16 座预售楼盘均价如下表 ( 单位: 元/平方米 )

\[\begin{array}{|llllllll|} \hline 7800 & 7400 & 7300 & 6700 & 7000 & 7800 & 8200 & 7400 \\ 8300 & 6800 & 7700 & 7700 & 7400 & 12900 & 7500 & 7700 \\ \hline \end{array} \]

判断楼盘价格与媒体公布的 7900元/平方米是否相符(\(\alpha = 0.05\))

若用 \(t\) 检验来做, 是无法拒绝原假设 \(H_0: \mu = 7900\) 的, 但是样本中只有 3 个大于 7900, 此时用平均值并不能很好地衡量总体, 因此考虑用中位数.

建立假设:

\[H_0:M_e = 7900, H_1: M_e\ne 7900 \]

\(Mc\) 为总体中位数, \(n_{+} , n_-\) 分别为大于小于 \(7900\) 样本的个数. \(H_0\) 若为真, \(n_+ , n_-\)

近似相等, 即\(n_+\) 不能太大也不能太小. 因此对 \(n_+\) 进行检验:

\(n_{+}=\sum_{i=1}^{n} Y_{i} . \text { 其中 } Y_{i} \sim \mathbb{B}(1, p), n_{+} \sim \mathbb{B}(n, p), p=P\left\{X_{i} \geq M_{e}\right\}\), 做如下假设:

\[H_{0}: p=0.5, H_{1}: p \neq 0.5 \]

抽到样本 $n_{+} =3 $ 甚至更为极端的概率为:

\[\mathbb{B}(3 ; 16,0.5)=\sum_{i=0}^{3} C_{16}^{i}(0.5)^{i}(0.5)^{16-i}=0.0213 \]

则 p 值就是 0.0213, 由\(\mathrm {p} = 0.0213<\alpha = 0.05\), 拒绝原假设, 认为总体中心与 7900 在统计意义上存在显著差异.

7.3.2 秩和检验

两个连续性总体的密度函数至多只差一个平移. 秩和检验可以用于判断两个样本是否来自同一总体.

各项假设:

\[\begin{aligned} H_0: \mu_1 = \mu_2,H_1: \mu_1<\mu_2\\ H_0: \mu_1 = \mu_2,H_1: \mu_1\neq\mu_2\\ H_0: \mu_1 = \mu_2,H_1: \mu_1>\mu_2\\ \end{aligned} \]

步骤( 以双边检验为例 ):

  • 将两个样本的观察值按从小到大排序, 求出每个观察值的秩. (总是假定样本容量 \(n_1 \leq n_2\))

  • 将属于第 1 个样本的总体的秩总和记为 \(R_1\) ,其余观察值的秩记为 \(R_2\).

  • 考虑统计量 \(R_1\) , 查表得 \(C_U(\frac \alpha 2)\)\(C_L(\frac \alpha 2)\) , 则拒绝域为 \(R_1\leq C_U(\frac \alpha 2)\) 或者 \(R_1\geq C_L(\frac \alpha 2)\)

*若 \(n_1,n_2 \geq 10\), 当 \(H_0\) 为真的时候, 近似地有:

\[R_1 \sim N(\mu_{R_1},\sigma^2_{R_1}). \]

可以采用 \(Z\) 检验.

7.3.3. 偏度峰度检验

7.3.4.卡方拟合优度检验

判断一组样本是否服从某种分布, 可进行卡方拟合优度检验, 首先 当然需要设置\(H_0,H_1\).

\[\chi^2 = \sum^k_{i=1}\frac{(O_i-T_i)^2}{T_i} \sim \chi^2{(n-1)} \]

其中, 将样本分为 \(k\) 个组, \(T_i\)是每组的理论频数, \(T_i=nP_i\), \(P_i\) 是每组的理论频率, \(O_i\) 是每组观测的频数

如果理论分布有 \(r\) 个位置参数用估计量代替, 则\(n-> \infty, \chi^2\sim \chi^2(k-r-1)\)

八. 多维

8.1 多维概率分布

分布函数: \(F(x,y) = P\{X \leq x,Y \leq y\}\)

密度函数: \(\displaystyle f(x,y) = \frac{\partial F}{\partial x\partial y}\)

边缘分布:\((X, Y)\) 为二维随机变量,称一维随机变量 \(X\)\(Y\) 的概率分布为二维随机变量 \((X, Y)\) 关于 \(X\)\(Y\) 对应的边缘分布; 分别记作: \(F_{X}(x), F_{Y}(y)_{}\)

二维离散型边缘分布率:
设二维随机变量 \((X, Y)\) 的分布律为 \(p_{i j},\) 那么对千随机变量 \(X, Y\) 其各自的分布律对于固定的 \(i, j=1,2, \cdots,\) 满足

\[P\left\{X=x_{i}\right\}=\sum_{j} p_{i j}=p_{i} \]

则称 \(p_{i} .\) 为随机变量 \((X, Y)\) 的边缘分布律。

二维连续型的边缘概率密度:
设二维随机变量\((X,Y)\)的概率密度为\(f(x,y)\), 由于

\[F_{X}(x)=\int_{-\infty}^{x} \int_{-\infty}^{\infty} f(x, y) d y d x, F_{Y}(y)=\int_{-\infty}^{y} \int_{-\infty}^{\infty} f(x, y) d x d y \]

\[\begin{array}{l} f_{X}(x)=\int_{-\infty}^{+\infty} f(x, y) d y \\ f_{Y}(y)=\int_{-\infty}^{+\infty} f(x, y) d x \end{array} \]

二维离散随机变量的条件概率:
\((X, Y)\) 是二维离散型随机变量,其分布律为 \(P\left\{X=x_{i}, Y=y_{j}\right\}=p_{i j},\) 其边缘概率分别为 \(p_{i}, p_{\cdot j} .\) 则条件概率定义为

\[\displaystyle\begin{array}{l} P\left\{X=x_{i} \mid Y=y_{j}\right\}=\frac{P\left\{X=x_{i}, Y=y_{j}\right\}}{P\left\{Y=y_{j}\right\}}=\frac{p_{i j}}{p_{\cdot j}} \\ P\left\{Y=y_{j} \mid \mathrm{X}=x_{j}\right\}=\frac{P\left\{X=x_{i}, Y=y_{j}\right\}}{P\left\{X=x_{i}\right\}}=\frac{p_{i j}}{p_{i}} \end{array} \]

独立性: 联合概率 = 边缘概率相乘

\[\begin{array} &F(x,y) = F_X(x)\cdot F_Y(y), 即\\ P\{X \leq x, Y \leq y\}=P\{X \leq x\} P\{Y \leq y\} \end{array} \]

几乎处处成立, 则随机变量\(X,Y\)是相互独立的

也可以用 \(f(x,y)\) 可分离判断.

8.2 \(\chi^2\) 独立性检验

假设两个随机变量 \(X,Y\), 给定显著性水平 \(\alpha\) , 检验非参数假设:

\[H_0: X,Y 相互独立, H_1: X,Y不相互独立 \]

\[\begin{array}{|c|ccc|c|} \hline & y_{1} & \cdots & y_{c} & n_{i\cdot} \\ \hline x_{1} & n_{11} & \cdots & n_{1 c} & n_{1\cdot} \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ x_{r} & n_{r 1} & \cdots & n_{r c} & n_{r\cdot} \\ \hline n_{\cdot j} & n_{\cdot 1} & \cdots & n_{\cdot c} & n \\ \hline \end{array} \]

若随机变量X,Y独立, 则联合概率 = 边缘概率\(\times\)边缘概率. 即, 若原假设 \(H_0\) 成立, 那么实际联合概率(相对应的经验频数)和理论联合概率,即边缘概率之积(相对应的理论频数)不会相差很大. 构造下方的统计量.

\[\chi^{2}=\sum \frac{\left(E_{i j}-T_{i j}\right)^{2}}{T_{i j}} \]

其中经验频数 \(E_{ij}=n_{ij}\), 理论频数\(T_{ij}=n\cdot \frac{n_i}{n} \cdot \frac{n_j}{n}\), 当 \(n\) 充分大时, \(\chi^2\) 近似服从 \(\chi^2\) 分布:

\[\chi^{2} \sim \chi^{2}((r-1)(c-1)), r 为行数, c 为列数 \]

\(H_0\) 假设成立, 则经验频数和理论频数相差不应该太大, 所以拒绝域为:

\[\chi^{2} \geq \chi_{\alpha}^{2}((r-1)(c-1)) \]

九. 回归分析和方差分析

9.1 回归分析

9.1.1 相关性分析

  • 皮尔逊 (Pearson) 相关系数.

    \[r=\frac{1}{n-1}\sum_{i=1}^{n}\frac{(X_i-\bar X)(Y_i-\bar Y)}{s_Xs_Y} \]

    \(\bar X,\bar Y\) 为样本均值, \(s_x,s_y\) 是样本方差.

    • Pearson 相关系数用于度量两个随机变量 \(X,Y\)线性关系. 可近似估计 \(\rho\) .
    • 取值范围: \([-1,1]\) , 绝对值越接近 1 , 则线性关系越强.
    • 对称性.
    • 原样本经过线性变换不影响 \(r\) 值.
    • 不描述因果关系.
  • 对相关系数 \(r\) 进行显著性检验

    \[H_0:\rho = 0, H_1:\rho\neq 0 \]

    构造统计量:

    \[\begin{aligned}\\ t&=\frac{r}{S_r}\sim t(n-2),其中 S_r = \sqrt{\frac {1-r^2}{n-2} } \end{aligned} \]

    若原假设成立, \(t\) 值应小, 所以拒绝域为 \(|t| > t_{\frac \alpha 2}(n-2)\).

  • 斯皮尔曼( Spearman ) 相关系数:

    将原始数据根据其在总体数据中的平均降序位置分配一个等级 ( rank ), 这些等级变量之间的 Pearson 相关系数就是 Spearman 相关系数.

    例子:

    \[\begin{array}{|l|l|} \hline X & Y \\ \hline 2 & 21 \\ \hline 5 & 17 \\ \hline 8 & 14 \\ \hline 11 & 10 \\ \hline 15 & 5 \\ \hline 16 & 3 \\ \hline \end{array} \qquad\longrightarrow \qquad \begin{array}{|l|l|} \hline X & Y \\ \hline 6 & 1 \\ \hline 5 & 2 \\ \hline 4 & 3 \\ \hline 3 & 4 \\ \hline 2 & 5 \\ \hline 1 & 6 \\ \hline \end{array} \]

    根据右边表格, 按照下面公式计算 (皮尔逊相关系数展开就是这个):

    \[r_{}=\frac{\sum x_{i} y_{i}-\frac{\left(\sum x_{i}\right)\left(\sum y_{i}\right)}{n}}{\sqrt{\sum x_{i}^{2}-\frac{\left(\sum x_{i}\right)^{2}}{n}} \sqrt{\sum y_{i}^{2}-\frac{\left(\sum y_{i}\right)^{2}}{n}}} \]

9.1.2 一元线性回归分析

概述

对从总体 \((x, Y)\) 中抽取的一个样 本 \(\left(x_{1}, Y_{1}\right),\left(x_{2}, Y_{2}\right), \ldots,\left(x_{n}, Y_{n}\right)\)
一元线性回归模型:

\[\left\{\begin{array}{c}Y_{i}=\beta_{0} + \beta_{1} x_{i}+\varepsilon_{i}, i=1,2, \ldots, n \\ \varepsilon_{i} \sim N\left(\mathrm{0}, \sigma^{2}\right), \text { 且相互独立, } \\ \beta_{0}, \beta_{1}(\text { 回归系数 }), \sigma^{2} \text { 未知. }\end{array}\right. \]

根据样本估计 \(\beta_0,\beta_1\), 记作 \(\hat \beta_0,\hat\beta_1\), 称为 \(y\) 关于 \(x\) 的一元线性回归

\[\hat y = \hat \beta_0+ \hat \beta_1 x \]

一元线性回归要解决的问题

  • 参数估计 \(\left\{\begin{array}{l} \beta_{0}, \beta_{1} \text { 的估计 } \\ \sigma^{2} \text { 的估计 }\end{array}\right.\)
  • $参数检验及模型应用 $$\left{\begin{array}{l} \text { 线性假设的显著性检验 } \ 回归系数\beta_1 的置信区间\Y 的点估计\end{array}\right.$

参数估计

  • \(\beta_{0}, \beta_{1}\) 的估计 (采用最小二乘法)

    \(\hat \beta_0,\hat \beta_1\) 使 \(\displaystyle Q\left(\hat{\beta}_{0}, \hat{\beta}_{1}\right)=\min _{\alpha,\space \beta} Q\left(\beta_{0}, \beta_{1}\right)\).

    其中 \(Q(\beta_{0},\beta_1)\) 是偏差平方和 \(\displaystyle \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)^{2}\).

    求导令导数为零:

    \[\begin{aligned} \frac{\partial Q}{\partial \beta_{0}} &=-2 \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)=0 \\ \frac{\partial Q}{\partial \beta_{1}} &=-2 \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right) x_{i}=0 \end{aligned} \]

    整理一下, 得到正规方程系数行列式:

    \[\begin{align} n \beta_{0}&+\left(\sum_{i=1}^{n} x_{i}\right) \beta_{1}=\sum_{i=1}^{n} y_{i} \\ \left(\sum_{i=1}^{n} x_{i}\right) \beta_{0}&+\left(\sum_{i=1}^{n} x_{i}^{2}\right) \beta_{1}=\sum_{i=1}^{n} x_{i} y_{i} \end{align} \]

    记:

    \[\begin{aligned} &\bar{y}=\frac{1}{n} \sum_{i} y_{i}, \bar{x}=\frac{1}{n} \sum_{i} x_{i},& s_{x x}=\sum_{i}\left(x_{i}-\bar{x}\right)^{2} \\ &s_{x y}=\sum_{i}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right), &s_{yy }=\sum_{i}\left(y_{i}-\bar{y}\right)^{2} \end{aligned} \]

    可以由正规方程系数行列式得到等式:

    \[\begin{array}{l} \hat{\beta}_{0}+\bar{x} \hat{\beta}_{1}=\bar{y} \\ s_{x x} \hat{\beta}_{1}=s_{x y} \end{array} \]

    则 $\beta_0,\beta_1 $ 的最小二乘估计为

    \[\begin{array} \hat{\beta}_{0}=\bar{y}-\bar{x} \hat{\beta}_{1} \\ \hat{\beta}_{1}=s_{x y} / s_{x x} \end{array} \]

  • 误差 \(\sigma^2\) 的估计

    残差: \(e_i = y_i-\hat y_i\), 残差 \(e_i\)\(\varepsilon_i\) 的估计.

    由于 \(D(\varepsilon_i) = E(\varepsilon_i^2) = \sigma^2\)

    想到用残差平方和估计随机误差项的方差, 经计算, \(\sigma^2\) 的无偏估计为:

    \[s^2 = \frac 1 {n-2} \sum_{i=1}^{n}(y_i-\hat y_i)^2 \]

9.2 方差分析

9.2.1 单因素方差分析

1. 检验假设

用于推断两个或两个以上总体均值是否有差异的显著性检验.

  • 在方差分析中, 把所考察的试验结果称为试验指标.
  • 对试验指标产生影响的原因称为因素.
  • 因素的各个不同状态称为水平.

对于样本:

\[\begin{array}{|ccccc|} \hline A_{1}: N\left(\mu_{1}, \sigma^{2}\right) & X_{11} & X_{12} & \cdots & X_{1 n_{1}} \\ A_{2}: N\left(\mu_{2}, \sigma^{2}\right) & X_{21} & X_{22} & \cdots & X_{2 n_{2}} \\ \vdots & \vdots & \cdots & & \vdots \\ A_{r}: N\left(\mu_{r}, \sigma^{2}\right) & X_{r 1} & X_{r 2} & \cdots & X_{r n_{r}}\\ \hline \end{array} \]

各个样本间是独立的, 则

\[\left\{\begin{array}\\ X_{i j}=\mu_{i}+\varepsilon_{i j} \\ \varepsilon_{i j} \sim N\left(0, \sigma^{2}\right), \text { 各 } \varepsilon_{i j} \text { 独 立 } \\ j=1,2, \cdots, n_{i}, \quad i=1,2, \cdots, r \end{array}\right. \]

\[\text { 记 } \sum_{i=1}^{r} n_{i}=n, \bar{X}_{i \bullet}=\frac{1}{n_{i}} \sum_{j=1}^{n_{i}} X_{i j}, \bar{X}=\frac{1}{n} \sum_{i=1}^{r} \sum_{j=1}^{n_{i}} X_{i j} \]

检验假设:

\[\begin{array}\\ H_o: \mu_1=\mu_2=...=\mu_r\\ H_1: \mu_1,\mu_2...\mu_r不完全相等 \end{array} \]

假设检验采用的方法: 平方和分解:

  • 总偏差平方和 \(S_T\): \(\displaystyle S_T =\sum_{i=1}^{r}\sum_{j=1}^{n_i}(X_{ij}-\bar{X})^2\)
  • 效应平方和:\(S_A\): \(\displaystyle S_A=\sum_{i=1}^{r}n_i(\bar X_{i\bullet}-\bar{X})^2\)
  • 误差平方和\(S_E\): \(\displaystyle S_E = \sum_{i=1}^{r}\sum_{j=1}^{n_i}(X_{ij}-\bar X_{i\bullet})^2\)

定理:

  1. \(S_T = S_A+S_E\)

  2. \(\frac{S_{E}}{\sigma^{2}} \sim \chi^{2}(n-r)\)

    证明:

    \[\begin{aligned}\\ \frac{(n_i-1)\cdot\frac{\sum_{j=1}^{n_i}(X_{ij}-\bar X_{i\bullet})^2}{n_i-1}}{\sigma^2}\sim \chi^2(n_i-1) \end{aligned} \]

    卡方分布可以叠加

  3. $ S_{A} \text { 与 } S_{E} \text { 相互独立}$, 当 \(H_0\) 成立时, \(\frac{S_{A}}{\sigma^{2}} \sim \chi^{2}(r-1)\), 此时, \(\displaystyle F = \frac{{S_A}/(r-1)}{S_E/(n-r)} \sim F(r-1,n-r)\), 因为当拒绝原假设时, \(S_A\) 会偏大, 所以 当 \(F \geq F_{\alpha}(r-1, n-r)\) 时, 拒绝原假设.

单因素试验方差分析表:

例: 保险公司为了解某一险种在四个不同地区索赔额情况是否存在差异。搜集了这四个不同地区一年的索赔额情况记录如表所示. 试判断在四个不同地区索赔额有无显著的差异?

  • 索赔额差异来源于两个方面:

    • 地区之间的差异
    • 同一地区内的随机因素
  • 因素: 地区

  • 水平: 四个不同的地区

  • 最终的方差分析表:

2. 未知参数的估计

  • \(\sigma^2\) 的无偏估计为 \(\displaystyle \hat \sigma=\frac {S_E} {n-r}\)
  • $\mu_i $ 的无偏估计未 \(\displaystyle \hat{\mu}_i={\bar {X}_{i\bullet}},i=1,2,\cdots ,n_i\)

3. 比较 在部分相等的情况, 比较的方法有两个:

  • \(\mu_i - \mu_j(i \ne j)\) 的区间估计

    \[\begin{aligned} &\text { 因 为 } E\left(\bar{X}_{i \bullet}-\bar{X}_{j \bullet}\right)=\mu_{i}-\mu_{j},\\ &D\left(\bar{X}_{i \bullet}-\bar{X}_{j \bullet}\right)=\sigma^{2}\left(\frac{1}{n_{i}}+\frac{1}{n_{j}}\right)\\ &\text{且} \bar{X}_{i \bullet}-\bar{X}_{j \bullet} \text { 与 } \hat{\sigma}^{2}=M S_{E} \text { 相互独立 }\\ &\text { 故 } \frac{\left(\bar{X}_{i \cdot}-\bar{X}_{j \cdot}\right)-\left(\mu_{i}-\mu_{j}\right)}{\sqrt{M S_{E}\left(1 / n_{i}+1 / n_{j}\right)}}\\&=\frac{\left(\bar{X}_{i \cdot}-\bar{X}_{j \cdot}\right)-\left(\mu_{i}-\mu_{j}\right)}{\sigma \sqrt{\left(1 / n_{i}+1 / n_{j}\right)}} / \sqrt{\frac{S_{E}}{\sigma^{2}(n-r)}}\sim t(n-r) \end{aligned} \]

    求得置信区间, 若置信区间包含零, 则认为没有显著差异.

  • \(H_0: \mu_i = \mu_j, H_1:\mu_i\ne \mu_j\) 的假设检验

    构造检验统计量 \(\displaystyle t_{i j}=\frac{\bar{X}_{i \bullet}-\bar{X}_{j \bullet}}{\sqrt{M S_{E}\left(1 / n_{i}+1 / n_{j}\right)}} ,\)

    原假设成立时, \(\displaystyle t_{i j} \sim t(n-r),\)

    拒绝域 \(|t_{ij}|\geq t_{\alpha/2}(n-r)\)

9.2.2 双因素试验的方差分析

9.3 正交试验设计

极差分析

仅有一个例子

\[\begin{array}{|c|c|c|c|} \hline A & B & C & 试验指标 \\ \hline 1 & 1 & 1 & 6 \\ \hline 1 & 2 & 2 & 5 \\ \hline 1 & 3 & 3 & 4 \\ \hline 2 & 1 & 2 & 7 \\ \hline 2 & 2 & 3 & 6 \\ \hline 2 & 3 & 1 & 6 \\ \hline 3 & 1 & 3 & 11 \\ \hline 3 & 2 & 1 & 10 \\ \hline 3 & 3 & 2 & 8 \\ \hline \end{array} \]

\(A,B,C\) 下每个单元格内容为该因素的水平.

\[\begin{array}{|c|c|c|c|} \hline 水平 & A & B & C \\ \hline 1 & 15 & 24 & 22 \\ \hline 2 & 20 & 21 & 20 \\ \hline 3 & 29 & 18 & 21 \\ \hline 极差 & 14 & 6 & 2 \\ \hline \end{array} \]

找到所有该因素对应水平下的试验指标, 求和填入. 可知 \(A\) 因素影响最为显著, \(C\) 最不显著. 最佳组合为 \(A:3, B:1, C:1\)

十. 降维

10.1 主成分分析(PCA)

不懂线性代数, 下面这些参考了一些 PCA 的说明, 但我总觉得某些解释的不是很严谨.

目标

PCA 常用于高维数据的降维,可用于提取数据的主要特征分量.

对于原始数据矩阵

\[A=\begin{bmatrix} x_{11} &x_{12} & \cdots & x_{1n}\\ x_{21} &x_{22} & \cdots & x_{2n}\\ \vdots & \vdots & \cdots &\vdots \\ x_{r1} &x_{r2} & \cdots & x_{rn}\\ \end{bmatrix} \]

其中, 列向量\((x_{1i},x_{2i},\cdots,x_{ri})^T\)\(n\) 个样本中的一个. \(r\) 行表示 \(r\) 个维度.

对该矩阵进行中心化,得到中心化矩阵 \(X\)

\[Z_{ij}=x_{ij}−\frac 1 n \sum_ {m=1}^n x_{im} \]

X中心化后, 样本点的中心点即原点, 寻找点分散程度最大的方向, 即让这些点投影后的分散程度最大.

向量内积

若 $\alpha = (a_1, a_2,\cdots,a_n)^T,\beta = (b_1,b_2,\cdots,b_n)^T $ , 则内积可表示为:

\[\alpha \cdot \beta= \alpha^T \beta =a_1b_1+a_2b_2+ \cdots +a_nb_n \]

内积的几何意义:

\[A\cdot B = |A|\cdot|B|\cos\theta \]

\(B\) 为单位向量\((\sqrt{b_1^2+b_2^2+\cdots+b_n^2}=1)\)时, 两个向量的内积就是 \(A\) 在这个单位向量方向投影的长度.

散度

分散程度可以用方差或者协方差衡量, 回顾一下方差和协方差:

\[\begin{aligned}\\ 方差:&&s^{2}(X)&=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}\\ 协方差:&&\operatorname{Cov}(X, Y)&=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{n-1}\\ \end{aligned} \]

构建协方差矩阵 \(C\):

\[C=\begin{bmatrix} \operatorname{cov}(X_1, X_1) & \operatorname{cov}(X_1, X_2) &\cdots &\operatorname{cov}(X_1, X_n) \\ \operatorname{cov}(X_2, X_1) & \operatorname{cov}(X_2, X_2) & \cdots&\operatorname{cov}(X_2, X_n) \\ \vdots & \vdots & \cdots &\vdots \\ \operatorname{cov}(X_n, X_1) & \operatorname{cov}(X_n, X_2) &\cdots &\operatorname{cov}(X_n, X_n)\\ \end{bmatrix} \]

由上述公式可知协方差矩阵 \(C\) 的每一项为:

\[C_{ij} =cov(X_i,X_j) = \frac{\sum_{k=1}^{n}\left(X_{ik}-\bar{X_i}\right)\left(X_{jk}-\bar{X_j}\right)}{n-1}= \frac {X_{i1}X_{j1}+X_{i2}X_{j2}+\cdots+X_{in}X_{jn}}{n-1} \]

刚好是 \(Z\) 中的第 \(i\) 行与第 \(j\) 行做内积再除以 \(n-1\) 的结果.

​ 则协方差矩阵与中心化后的原始数据矩阵存在以下关联:

\[C=\frac 1 {n-1} XX^T \]

设要投影的单位向量为 \(V\) , 则得到的投影后的值为\(V\cdot Z=V^TZ\), 投影后的方差为:

\[s^2 = \frac 1 {n-1} \sum_{i=1}^n (V^T \alpha_i- \frac 1 n\sum _{i=1} ^n(V^T\alpha_i))^2=\frac 1 {n-1} \sum_{i=1}^n V^T \alpha_i \alpha_i^TV = \frac{1}{n-1} V^TZZ^TV=V^TCV \]

其中 \(\alpha_i\)\(Z\) 中的第 \(i\) 列.

拉格朗日乘数法

\(S^2\) 最大值,限制条件: \(||V||=1\)

构建方程:

\[F(V) = V^TCV-\lambda(V^TV-1)① \]

\(V\) 求导数得:

\[\frac {\partial F}{\partial V} = 2CV-2\lambda V \]

令导数为零得:

\[CV=\lambda V ② \]

这个形式是特征值和特征向量的定义式, \(C\)\(n\) 阶方阵, \(V\) 是特征向量, \(\lambda\) 是特征值. 求特征值和特征向量需要进行特征值分解 (EVD) , 这是线性代数的内容.

降维

将 ② 代入 ① 得 $ s^2 = F(V) = \lambda$, 特征值 \(λ\) 越大, 则散度越大.

将所有的特征值降序排列, 根据最终需要的维度 \(d\) 来选择前 \(d\) 大的特征值对应的特征向量, 并将特征向量单位化后组成矩阵 \(W = (w_1,w_2,\cdots,w_d)\), 由于每个点都可以视为在各个特征向量方向上的投影组成, 则最终降维后:

\[X_{d\times n} = W^TX = \begin{pmatrix} w1^T\\ w2^T\\ \vdots\\ w_d^T\\ \end{pmatrix} X \]

矩阵 \(X_{d\times n}\) 的第一行称为第一主成分, 以此类推.

关于 d 的选择:

按 czy 课件来的话, 要求 \(\displaystyle \frac{ \sum _{i=1}^d \lambda_i}{\sum_{i=1}^p \lambda_i}\geq 0.85\) , p 为得到的特征值的数量.

posted @ 2020-12-27 15:30  邪王真眼是最强的  阅读(3078)  评论(1编辑  收藏  举报