哈尔滨工业大学计算机学院-数理统计-课程总结

1. 前言

  • 本课程由数学系开设,属于统计学范畴的理论知识。
  • 本博客仅对课程中的如下内容进行详细介绍,主要记录实用的计算方法,具体理论证明请进一步查阅相关数学书籍。
    • 基本概念
    • 参数估计(如何根据样本数据得到总体参数信息)
      • 点估计
      • 区间估计
      • 贝叶斯估计
    • 假设检验(如何对关于总体的一些假设作出决策)
      • 参数假设检验
      • 非参数假设检验
    • 单因素方差分析(分类变量与数值变量的效应关系)
    • 一元线性回归分析(数值变量之间的效应关系)

2. 基本概念

2.1 统计量

  • 定义:设\(\left( X _ { 1 } , X _ { 2 } , \cdots , X _ { n } \right)\)为取自总体\(X\)的一个样本,\(T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right)\)为样本的实值连续函数,且\(T\)中不包含任何未知参数,则称\(T\)为一个统计量。

  • 几个常用的重要统计量

    • 样本均值:\(\overline { X } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i }\)
    • 样本方差:\(S ^ { 2 } = \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } = \frac { 1 } { n - 1 } \left( \sum _ { i = 1 } ^ { n } X _ { i } ^ { 2 } - n \overline { X } ^ { 2 } \right)\)
    • 样本标准差:\(S = \sqrt { \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } }\)
    • 样本\(k\)阶原点矩:\(M _ { k } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i } ^ { k } , ( k = 1,2 , \cdots ) \quad M _ { 1 } = \overline { X }\)
    • 样本\(k\)阶中心矩:$M _ { k } ^ { * } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { k } , ( k = 2,3 , \cdots ) \quad M _ { 2 } ^ { * } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } $

2.2 几个重要的分布

2.2.1 \(\Gamma\)分布族

  • Gamma函数

\[\Gamma ( \alpha ) = \int _ { 0 } ^ { + \infty } x ^ { \alpha - 1 } e ^ { - x } d x \]

  • \(\Gamma ( \alpha + 1 ) = \alpha \Gamma ( \alpha )\)
  • \(\Gamma ( n + 1 ) = n \Gamma ( n ) = n !\)\(n\)为自然数
  • \(\Gamma\)分布

\[X \sim f ( x ; \alpha , \beta ) = \left\{ \begin{array} { c c } { \frac { \beta ^ { \alpha } } { \Gamma ( \alpha ) } x ^ { \alpha - 1 } e ^ { - \beta x } , } & { x > 0 } \\ { 0 , } & { x \leq 0 } \end{array} \right. \]

  • 记为\(X \sim \Gamma ( \alpha , \beta )\)\(E X = \frac { \alpha } { \beta } , D X = \frac { \alpha } { \beta ^ { 2 } }\)
  • \(\Gamma\)分布的两个重要子族
    • 指数分布族
      • \(\alpha = 1\),即\(X \sim \Gamma ( 1 , \beta )\)等价于\(X \sim E ( \beta )\)
    • 卡方分布族
      • \(\alpha = \frac { n } { 2 } , \beta = \frac { 1 } { 2 }\),即\(X \sim \Gamma \left( \frac { n } { 2 } , \frac { 1 } { 2 } \right)\)等价于\(\chi ^ { 2 } \sim \chi ^ { 2 } ( n )\),服从自由度为\(n\)的卡方分布。
  • 卡方分布
    • 定义:\(X _ { 1 } , X _ { 2 } , \cdots , X _ { n }\)独立,\(X _ { i } \sim N ( 0,1 ) , i = 1,2 , \cdots , n\),则\(\chi ^ { 2 } = \sum ^ { n } X _ { i } ^ { 2 } \sim \chi ^ { 2 } ( n )\),即\(n\)个独立的标准正态分布的平方和,卡方分布的自由度也为\(n\)
    • 卡方分布的密度函数不是轴对称的。
    • \(E \chi ^ { 2 } = n , \quad D \chi ^ { 2 } = 2 n\)
    • 线性可加性:\(\chi _ { 1 } ^ { 2 } \sim \chi ^ { 2 } \left( n _ { 1 } \right) , \quad \chi _ { 2 } ^ { 2 } \sim \chi ^ { 2 } \left( n _ { 2 } \right)\)且相互独立,则\(\chi _ { 1 } ^ { 2 } + \chi _ { 2 } ^ { 2 } \sim \chi ^ { 2 } \left( n _ { 1 } + n _ { 2 } \right)\)

2.2.2 \(\beta\)分布族

  • Beta函数,记为\(B(a,b)\)
    • \(B ( a , b ) = \frac { \Gamma ( a ) \Gamma ( b ) } { \Gamma ( a + b ) }\)
    • \(B ( a , b ) = B ( b , a )\)
  • X服从\(\beta\)分布,记\(X \sim B e ( a , b )\)\(E X = \frac { a } { a + b } , D X = \frac { a b } { ( a + b ) ^ { 2 } ( a + b + 1 ) }\)

2.2.3 \(t\)分布族

  • \(X,Y\)独立,\(X \sim N ( 0,1 ) , Y \sim \chi ^ { 2 } ( n )\),则\(T = \frac { X } { \sqrt { Y / n } } \sim t ( n )\)
  • \(E T = 0 ( n > 1 )\),密度函数曲线关于\(x\)轴对称。\(D T = \frac { n } { n - 2 } ( n > 2 )\)

2.2.4 \(F\)分布族

  • \(X,Y\)独立,\(X \sim \chi ^ { 2 } ( m ) , Y \sim \chi ^ { 2 } ( n )\),则\(F = \frac { X / m } { Y / n } \sim F ( m , n )\)
  • \(F \sim F ( m , n )\),则\(\frac { 1 } { F } \sim F ( n , m )\)
  • \(F _ { \alpha } ( m , n ) = \frac { 1 } { F _ { 1 - \alpha } ( n , m ) }\)

2.3 正态总体的抽样分布

  • 设总体\(X \sim N \left( \mu , \sigma ^ { 2 } \right)\)\(X _ { 1 } , X _ { 2 } , \cdots , X _ { n }\)为总体\(X\)的样本,\(\overline { X } , S ^ { 2 }\)分别为样本均值和样本方差。

\[\overline { X } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i } \]

\[S ^ { 2 } = \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } \]

  • 有如下性质:
    • \(\overline { X } \sim N \left( \mu , \frac { \sigma ^ { 2 } } { n } \right)\),或\(\frac { \overline { X } - \mu } { \sigma / \sqrt { n } } \sim N ( 0,1 )\)
    • \(\frac { ( n - 1 ) s ^ { 2 } } { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n - 1 )\)
    • \(\frac { \overline { X } - \mu } { S / \sqrt { n } } \sim t ( n - 1 )\)

3. 参数估计

  • 统计分析的基本任务是从样本出发推断总体分布或总体的某些数字特征,我们把这个过程称为统计推断。统计推断可分为两大类,一类是参数估计,另一类是假设检验。参数估计又分为两个子问题:点估计和区间估计。

3.1 点估计

  • 根据样本\(X _ { 1 } , X _ { 2 } , \cdots , X _ { n }\)构造一个统计量\(\hat { \theta } = \hat { \theta } \left( X _ { 1 } , X _ { 2 } , \cdots , X _ { n } \right)\)来估计\(\theta\)
  • 点估计的方法有很多,最常见的有矩估计法、最大似然估计法、顺序统计量法和最小二乘法等。这里只介绍矩估计法和最大似然估计法。

3.1.1 矩估计法

  • 矩估计法的原理是用样本的\(k\)阶矩代替总体的\(k\)阶矩。用\(M _ { k } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i } ^ { k }\)代替\(\mu _ { k } = E \left( X ^ { k } \right)\),用\(M _ { k } ^ { * } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { k }\)代替\(\mu _ { k } ^ { * } = E ( X - E ( X ) ) ^ { k }\)
  • 实际计算的时候,往往是用样本均值代替总体均值,用样本2阶中心矩阵代替总体方差。

3.1.2 最大似然估计法

  • 计算过程如下:
    • 写出似然函数\(L = L \left( \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right) = \prod _ { i = 1 } ^ { n } f \left( x _ { i } ; \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)\)
    • 取对数\(\ln L \left( \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)=\sum _ { i = 1 } ^ { n } \ln f \left( x _ { i } , \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)\)
    • 求max,\(\ln L \left( \hat { \theta } _ { 1 } , \hat { \theta } _ { 2 } , \cdots , \hat { \theta } _ { m } \right) = \max _ { \theta _ { 1 } , \cdots , \theta _ { m } } \ln L \left( \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)\)
  • 一般求max都是利用导数等于0,计算驻点得到。

3.2 区间估计

  • 点估计对估计的精度和可靠度bing没有做明确的回答,例如用样本均值估计总体均值,有多大的误差和以多大的可靠度使期望误差不超过某一限度等问题窦唯讲述。
  • 区间估计对真值可能的范围加以估计,并要求有足够的置信度确认这种估计。

3.2.1 构造置信区间的方法

  • 置信区间的定义
    • 对未知参数$ \theta $,如果两个统计量

      \[\hat { \theta } _ { 1 } = \hat { \theta } _ { 1 } \left( x _ { 1 } , x _ { 2 } ,\cdots , x _ { n } \right) \]

      \[\hat { \theta } _ { 2 } = \hat { \theta } _ { 2 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) \]

    • 对给定的 $ \alpha ( 0 < \alpha < 1 ) $ 有

\[P \left( \theta _ { 1 } < \theta < \theta _ { 2 } \right) = 1 - \alpha \]

  • 则称 \((\theta_1, \theta_2)\) 为参数 \(\theta\) 的置信度为\(1-\alpha\)的置信区间。

  • 一般采用枢轴量法构造置信区间,步骤如下:

    • 构造一个含有未知参数\(\theta\),而不含有其他未知参数的随机变量$$ T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ;\theta \right) $$使其分布为已知且与\(\theta\)无关,随机变量T也称为枢轴量。

    • 对给定的\(\alpha\),根据\(T\)的分布找出两个临界值\(c\)\(d\),使得

\[TP \left( c < T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ; \theta \right) < d \right) = 1 - \alpha \]

  • 将不等式$$ c < T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ; \theta \right) < d $$ 转化为等价形式$ \hat { \theta } _ { 1 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) < \theta < \hat { \theta } _ { 2 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) $。
  • 则有$$ P \left( \hat { \theta } _ { 1 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) < \theta < \hat { \theta } _ { 2 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) \right) = 1 - \alpha $$,于是$$ \left( \hat { \theta } _ { 1 } , \hat { \theta } _ { 2 } \right) $$为\(\theta\)的置信度为$ 1 - \alpha $的置信区间。

3.2.2 单个正态总体参数的区间估计

  • \(x_{ 1 } , x_{2} , ...,x_{n}\)为取自正态总体\(N(\mu , \sigma^{ 2 } )\)的样本,\(\overline { x } , s^{2}\)分别表示样本均值和样本方差。

  • 期望\(\mu\)的区间估计

    • \(\sigma^2\)已知,求\(\mu\)的置信区间

\[u = \frac { \overline { x } - \mu } { \sigma } \sqrt { n } \sim N ( 0,1 ) \]

- $ - u _ { \frac { \alpha } { 2 } } < u < u _ { \frac { \alpha } { 2 } } $
  • $ \sigma ^ { 2 } \(未知,求\) \mu $的置信区间

\[t = \frac { \overline { x } - \mu } { s } \sqrt { n } \sim t ( n - 1 ) \]

- $ - t _ { \frac { \alpha } { 2 } } ( n - 1 ) < t < t _ { \frac { \alpha } { 2 } } ( n - 1 ) $
  • 方差$ \sigma ^ { 2 } $的区间估计
    • \(\mu\)已知,求$ \sigma ^ { 2 } $的置信区间

\[\chi ^ { 2 } = \sum _ { i = 1 } ^ { n } \frac { \left( x _ { t } - \mu \right) ^ { 2 } } { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n ) \]

- $ \chi _ { 1 - \frac { \alpha } { 2 } } ^ { 2 } ( n ) < \chi ^ { 2 } < \chi _ { \frac { \alpha } { 2 } } ^ { 2 } ( n ) ) $
  • \(\mu\)未知,求$ \sigma ^ { 2 } $的置信区间

\[\chi ^ { 2 } = \frac { ( n - 1 ) s ^ { 2 } } { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n - 1 ) \]

- $ \chi _ { 1 - \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) < \chi ^ { 2 } < \chi _ { \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) $
  • 个人总结
    • 求均值时,用的是N和t。
    • 求方差时,都是采用卡方。

3.2.3 多个正态总体参数的区间估计

设总体\(X\sim N \left(\mu_1 , \sigma_{1}^{2} \right)\),总体\(Y\sim N \left(\mu_{2} , \sigma_{2}^{2} \right)\),且相互独立,样本容量分别为\(n_1\)\(n_2\)

  • 期望差$ \mu_{ 1 } - \mu_{ 2 } $的区间估计
    • $\sigma_{ 1 }^{ 2 } , \sigma_{ 2 }^{ 2 } $已知

\[U = \frac { \overline { x } - \overline { y } - \left( \mu_{ 1 } - \mu_{ 2 } \right) } { \sqrt { \sigma_{ 1 } ^ { 2 } / n_{ 1 } + \sigma_{ 2 } ^ { 2 } / n_{ 2 } } } \sim N ( 0,1 ) \]

  • $ \sigma_{ 1 } ^ { 2 } , \sigma_{ 2 }^{ 2 } $未知,样本容量充分大
    • 用样本方差代替上一个公式的总体方差
  • \(\sigma_{ 1 }^{ 2 } , \sigma_{ 2 }^{ 2 }\)未知,但$ \sigma_{ 1 }^{ 2 } = \sigma_{ 2 }^{ 2 } = \sigma^{ 2 } $

\[t = \frac { \overline { x } - \overline { y } - \left( \mu _ { 1 } - \mu _ { 2 } \right) } { S _ { w } \sqrt { \frac { 1 } { n _ { 1 } } + \frac { 1 } { n _ { 2 } } } } \sim t \left( n _ { 1 } + n _ { 2 } - 2 \right) \]

- 其中$ S _ { w } = \sqrt { \frac { \left( n _ { 1 } - 1 \right) s _ { 1 } ^ { 2 } + \left( n _ { 2 } - 1 \right) s _ { 2 } ^ { 2 } } { n _ { 1 } + n _ { 2 } - 2 } } $
  • $ - t _ { \frac { \alpha } { 2 } } \left( n _ { 1 } + n _ { 2 } - 2 \right) < t < t _ { \frac { \alpha } { 2 } } \left( n _ { 1 } + n _ { 2 } - 2 \right) $

3.3 贝叶斯估计

  • 前面讨论的参数估计的方法只是利用了总体信息,即总体服从何种分布的信息,以及样本信息,即样本数据提供的有关未知参数的信息。然而在实际问题中,可能在抽样之前就有了关于未知参数的信息,这种信息也被称作先验信息。贝叶斯估计不光考虑了总体信息与样本信息,也考虑了先验信息。
  • 样本的联合密度函数$ f ( x | \theta ) = \prod _ { i = 1 } ^ { n } f \left( x _ { i } ; \theta \right) $
  • 参数\(\theta\)和样本的联合密度函数为$ \pi ( \theta ) f ( x | \theta ) $
  • 样本的边缘分布密度$ g ( x ) = \int _ { - \infty } ^ { + \infty } \pi ( \theta ) f ( x | \theta ) \mathrm { d } \theta $
  • 后验分布

\[h ( \theta | x ) = \frac { \pi ( \theta ) f ( x | \theta ) } { \int _ { - \infty } ^ { + \infty } \pi ( \theta ) f ( x | \theta ) \mathrm { d } \theta } = \frac { \pi ( \theta ) f ( x | \theta ) } { g ( x ) } \]

  • 最大后验估计\(\hat { \theta } _ { M }\),对后验分布\(h ( \theta | x )\)求导,寻找驻点。
  • 期望型估计\(\hat { \theta } _ { E }\),对后验分布\(h ( \theta | x )\)求期望,\(\hat { \theta } _ { E } = E( h ( \theta | x ) )\)
  • 最小风险估计\(\hat { \theta } _ { B }\),在平方损失函数\(L ( \theta , d ) = [ \theta - d ( x ) ] ^ { 2 }\)下,\(\hat { \theta } _ { B } = \hat { \theta } _ { E }\)

4. 假设检验

4.1 参数假设检验

4.1.1 单个正态总体参数的假设检验

  • \(x _ { 1 } , x _ { 2 } , \cdots , x _ { n }\)为取自正态总体\(N \left( \mu , \sigma ^ { 2 } \right)\)的一个容量为\(n\)的样本。
  • \(u\)检验
    • 已知\(\sigma ^ { 2 } = \sigma _ { 0 } ^ { 2 }\),检验\(H _ { 0 } : \mu = \mu _ { 0 } , \quad H _ { 1 } : \mu \neq \mu _ { 0 }\),选择统计量

\[u = \frac { \overline { x } - \mu _ { 0 } } { \sigma _ { 0 } } \sqrt { n } \]

- $H_0$成立时,他服从$N ( 0,1 )$分布,拒绝域$\left\{ | u | \geq u _ { \frac { \alpha } { 2 } } \right\}$
  • 已知\(\sigma ^ { 2 } = \sigma _ { 0 } ^ { 2 }\),检验\(H _ { 0 } : \mu \leq \mu _ { 0 } , \quad H _ { 1 } : \mu > \mu _ { 0 } \left( H _ { 1 } : \mu = \mu _ { 1 } , \mu _ { 1 } > \mu _ { 0 } \right)\),选择统计量

\[u = \frac { \overline { x } - \mu _ { 0 } } { \sigma _ { 0 } } \sqrt { n } \]

- $H_0$成立时,他服从$N ( 0,1 )$分布,拒绝域${u \geq u _ { \alpha }}$
  • \(t\)检验
    • 未知\(\sigma ^ { 2 }\),检验\(H _ { 0 } : \mu = \mu _ { 0 } , \quad H _ { 1 } : \mu \neq \mu _ { 0 }\),检验统计量为

\[t = \frac { \overline { x } - \mu _ { 0 } } { s } \sqrt { n } \]

- $H_0$成立时,$t$服从$t ( n - 1 )$分布,拒绝域为$\left\{ | t | \geq t _ { \frac { \alpha } { 2 } } ( n - 1 ) \right\}$
  • 未知\(\sigma ^ { 2 }\),检验\(H _ { 0 } : \mu \geq \mu _ { 0 } , \quad H _ { 1 } : \mu < \mu _ { 0 } \left( H _ { 1 } : \mu = \mu _ { 1 } , \mu _ { 1 } < \mu _ { 0 } \right)\),检验统计量为

\[t = \frac { \overline { x } - \mu _ { 0 } } { s } \sqrt { n } \]

- 拒绝域为$\left\{ t \leq - t _ { \alpha } ( n - 1 ) \right\}$
  • \(\chi ^ { 2 }\)检验
    • 未知\(\mu\),检验\(H _ { 0 } : \sigma ^ { 2 } = \sigma _ { 0 } ^ { 2 } , H _ { 1 } : \sigma ^ { 2 } \neq \sigma _ { 0 } ^ { 2 }\)。检验统计量为

\[\chi ^ { 2 } = \frac { ( n - 1 ) s ^ { 2 } } { \sigma _ { 0 } ^ { 2 } } \]

- $H_0$成立时,他服从$\chi ^ { 2 } ( n - 1 )$分布,拒绝域为$\left\{ \chi ^ { 2 } \leq \chi _ { 1 - \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) \right\}$,或$\left\{ \chi ^ { 2 } \geq \chi _ { \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) \right\}$
  • 未知\(\mu\),检验\(H _ { 0 } : \sigma ^ { 2 } \leq \sigma _ { 0 } ^ { 2 } , H _ { 1 } : \sigma ^ { 2 } > \sigma _ { 0 } ^ { 2 }\),检验统计量为

\[\chi ^ { 2 } = \frac { ( n - 1 ) s ^ { 2 } } { \sigma _ { 0 } ^ { 2 } } \]

- 拒绝域为$\left\{ \chi ^ { 2 } \geq \chi _ { \alpha } ^ { 2 } ( n - 1 ) \right\}$

4.1.2 两个正态总体参数的假设检验

  • \(u\)检验
    • \(\sigma _ { 1 } ^ { 2 } , \sigma _ { 2 } ^ { 2 }\)已知,检验\(H _ { 0 } : \mu _ { 1 } = \mu _ { 2 } , H _ { 1 } : \mu _ { 1 } \neq \mu _ { 2 }\),检验统计量为

\[u = \frac { \overline { x } - \overline { y } } { \sqrt { \frac { \sigma _ { 1 } ^ { 2 } } { n _ { 1 } } + \frac { \sigma _ { 2 } ^ { 2 } } { n _ { 2 } } } } \]

- $H_0$成立时,他服从$N ( 0,1 )$分布,拒绝域为$\left\{ | u | \geq u _ { \frac { \alpha } { 2 } } \right\}$
  • \(t\)检验
    • \(\sigma _ { 1 } ^ { 2 } , \sigma _ { 2 } ^ { 2 }\)未知,但已知\(\sigma _ { 1 } ^ { 2 } = \sigma _ { 2 } ^ { 2 }\),检验\(H _ { 0 } : \mu _ { 1 } = \mu _ { 2 } , H _ { 1 } : \mu _ { 1 } \neq \mu _ { 2 }\),检验统计量为

\[t = \frac { \overline { x } - \overline { y } } { S _ { W } \sqrt { \frac { 1 } { n _ { 1 } } + \frac { 1 } { n _ { 2 } } } } \]

- 其中$S _ { W } = \sqrt { \frac { \left( n _ { 1 } - 1 \right) s _ { 1 } ^ { 2 } + \left( n _ { 2 } - 1 \right) s _ { 2 } ^ { 2 } } { n _ { 1 } + n _ { 2 } - 2 } }$。
- $H_0$成立时,他服从$t(n_1+n_2-2)$分布,拒绝域为$\left\{ | t | \geq t _ { \frac { \alpha } { 2 } } \left( n _ { 1 } + n _ { 2 } - 2 \right) \right\}$
  • \(F\)检验
    • 未知\(\mu _ { 1 } , \mu _ { 2 }\),检验\(H _ { 0 } : \sigma _ { 1 } ^ { 2 } = \sigma _ { 2 } ^ { 2 } , H _ { 1 } : \sigma _ { 1 } ^ { 2 } \neq \sigma _ { 2 } ^ { 2 }\),检验统计量为

\[F = \frac { s _ { 1 } ^ { 2 } } { s _ { 2 } ^ { 2 } } \]

- $H_0$成立时,他服从$F(n_1-1,n_2-1)$分布,拒绝域为$\left\{ F \leq F _ { 1 - \frac { \alpha } { 2 } } \left( n _ { 1 } - 1 , n _ { 2 } - 1 \right) \right\}$,或$\left\{ F \geq F _ { \frac { \alpha } { 2 } } \left( n _ { 1 } - 1 , n _ { 2 } - 1 \right) \right\}$
  • 未知\(\mu _ { 1 } , \mu _ { 2 }\),检验\(H _ { 0 } : \sigma _ { 1 } ^ { 2 } \leq \sigma _ { 2 } ^ { 2 } , H _ { 1 } : \sigma _ { 1 } ^ { 2 } > \sigma _ { 2 } ^ { 2 }\), 检验统计量为

\[F = \frac { s _ { 1 } ^ { 2 } } { s _ { 2 } ^ { 2 } } \]

- $H_0$成立时,他服从$F(n_1-1,n_2-1)$分布,拒绝域为$\left\{ F \geq F _ { \alpha } \left( n _ { 1 } - 1 , n _ { 2 } - 1 \right) \right\}$

4.2 非参数假设检验

  • 非参数的假设检验最常见的是独立性假设检验,以及两总体分布比较的假设检验,后者通常用符号检验法、秩和检验法。
  • 具体细节查阅相关文档,算法比较简单,不做介绍。

5. 方差分析

  • 方差分析在本质上所研究的是变量之间的关系,尤其是研究一个(或多个)分类型自变量与一个数值型因变量之间的关系。
  • 从形式上看,方差分析是比较多个总体的均值是否相等,虽然我们感兴趣的是均值是否相等,但在判断均值之间是否有差异时需要借助于方差,所以称为方差分析。在方差分析中,将影响试验指标的变量称为因素,称因素所处的不同状态为水平。
  • 方差分析就是通过对试验数据进行分析,检验方差相同各正态总体的均值是否相等,以判断各因素对试验指标的影响是否显著。
    • 需要注意,前提要求是方差相等。
  • 单因素方差分析即影响试验指标的变量因素只有一个。本小节只介绍单因素方差分析。

5.1 单因素方差分析

  • 单因素方差分析是固定其他因素只考虑某一因素\(A\)对试验指标的影响。将因素\(A\)以外的条件保持不变,取因素\(A\)\(r\)个水平\(A _ { 1 } , A _ { 2 } , \cdots , A _ { r }\),对水平\(A_I\)重复做\(n_i\)次试验,可得试验指标的\(n_I\)个数据\(y _ { i 1 } , y _ { i 2 } , \cdots , y _ { i n _ { i } } , i = 1,2 , \cdots , r\)
  • \(\eta _ { i }\)表示水平\(A_i\)的情况下试验指标的数值。用\(\eta _ { i 1 } , \eta _ { i 2 } , \cdots , \eta _ { i n _ { i } }\)表示以\(\eta _ { i }\)为总体的样本,则\(y _ { i 1 } , y _ { i 2 } , \cdots , y _ { i n _ { i } }\)就是样本\(\eta _ { i 1 } , \eta _ { i 2 } , \cdots , \eta _ { i n _ { i } }\)的观察值。
  • 假定上述的\(r\)个总体\(\eta _ { 1 } , \cdots , \eta _ { r }\)是相互独立且方差相等的随机变量,\(\eta _ { i } \sim N \left( a _ { i } , \sigma ^ { 2 } \right) , \quad i = 1,2 , \cdots , r\),其中\(\sigma ^ { 2 }\)未知,\(a _ { i }\)也未知。
    • 样本\(\eta _ { i 1 } , \eta _ { i 2 } , \cdots , \eta _ { i n _ { i } }\)是独立同分布的。
  • 上述数学符号是一些基础介绍,之后介绍单因素方差分析的计算方法——平方和的分解与检验。

5.2 平方和的分解与检验

  • 该方法的任务是解决如下问题:
    • 检验假设\(H _ { 0 } : a _ { 1 } = a _ { 2 } = \cdots = a _ { r }\),即均值相等。
    • \(a _ { i } , \sigma ^ { 2 }\)的点估计与区间估计。
  • 该方法称\(S_T\)为总偏差平方和,\(S_A\)为组间偏差平方和,\(S_e\)为组内偏差平方和。
  • 总偏差平方和分解式为:\(S _ { T } = S _ { e } + S _ { A }\)
  • 上述三个变量的常用计算公式为:

\[R=\sum_{i=1}^{r}\sum_{j=1}^{n_i} \eta_{ij}^2 \]

\[G=\sum_{i=1}^{r}\sum_{j=1}^{n_i} \eta_{ij} \]

\[P=\sum_{i=1}^{r}\frac{({\sum_{j=1}^{n_i}\eta_{ij}})^2}{n_I} \]

\[S_T=R - \frac{G^2}{n} \]

\[S_A=P - \frac{G^2}{n} \]

\[S_e=R - P \]

  • \(R\)为所有数据的平方和
  • \(P\)为所有数据的和
  • \(n\)为所有数据的数量
  • 检验统计量为

\[F = \frac { S _ { A } / \sigma ^ { 2 } ( r - 1 ) } { S _ { e } / \sigma ^ { 2 } ( n - r ) } = \frac { ( n - r ) S _ { A } } { ( r - 1 ) S _ { e } } \sim F ( r - 1 , n - r ) \]

  • 拒绝域为\(\left\{ F > F _ { \alpha } ( r - 1 , n - r ) \right\}\)

6. 回归分析

  • 实际问题中变量之间往往都是有相互联系或者相互制约的,变量之间的关系大致分为两类。一类是确定性关系,也就是函数关系。另一类是相关关系,变量之间有密切的关系,但是不能用一个确定的函数关系来表达。
  • 回归分析是研究数值型自变量与数值型因变量之间的相关关系的一种统计分析方法。
  • 本小节只介绍一元线性回归模型

6.1 一元线性回归模型

  • 线性回归的回归参数通常由最小二乘估计来确定。

\[L _ { x x } = \sum _ { i = 1 } ^ { n } \left( x _ { i } - \overline { x } \right) ^ { 2 } \]

\[L _ { y y } = \sum _ { i = 1 } ^ { n } \left( y _ { i } - \overline { y } \right) ^ { 2 } \]

\[L _ { x y } = \sum _ { i = 1 } ^ { n } \left( x _ { i } - \overline { x } \right) \left( y _ { i } - \overline { y } \right) \]

  • \(\beta _ { 0 } , \beta _ { 1 }\)的最小二乘估计简写为

\[\left\{ \begin{array} { l } { \beta _ { 0 } = \overline { y } - \beta _ { 1 } \overline { x } } \\ { \beta _ { 1 } = L _ { \mathrm { xy} } / L _ { \mathrm { xx } } } \end{array} \right. \]

- 由此便得到线性回归方程的相关系数。
  • 接下来介绍一些常用符号
    • 总平方和\(S_T\)

\[S_T=\sum _ { i = 1 } ^ { n } \left( y _ { i } - \overline { y } \right) ^ { 2 } = L_{yy} \]

  • 回归平方和\(S_R\)

\[S_R=\sum _ { i = 1 } ^ { n } \left( \hat { y } _ { i } - \overline { y } \right) ^ { 2 } = \frac {L_{xy} L_{xy}} {L_{xx}} = \hat { \beta } _ { 1 } L_{xy} \]

  • 残差平方和\(S_e\)

\[S_e= \sum _ { i = 1 } ^ { n } \left( y _ { i } - \hat { y } _ { i } \right) ^ { 2 } \]

  • 平方和分解式可以简写为\(S _ { T } = S _ { R } + S _ { e }\)

  • 通常用最大似然估计法得到\(\sigma ^ { 2 }\)的估计值为

\[\hat { \sigma } ^ { 2 } = \frac { 1 } { n - 2 } \sum _ { i = 1 } ^ { n } S_e \]

  • \(E \left( \hat { \beta } _ { 1 } \right)=\beta _ { 1 }\)
  • \(D \left( \hat { \beta } _ { 1 } \right)= \frac { \sigma ^ { 2 } } {L_{xx}}\)
  • 相关系数

\[r=\frac { L _ { xy} } { \sqrt { L _ { xx} L _ { yy} } } \]

  • 决定系数

\[R=r^2=\frac {S_R} {S_T} \]

posted @ 2019-01-13 11:29  szx_spark  阅读(981)  评论(0编辑  收藏  举报