【统计数据分析专论】01-Revisiting linear regression 重新审视线性回归

Revisiting linear regression 重新审视线性回归

课件翻译

Linear regression 线性回归

最经典的统计模型之一，但仍被广泛使用
用线性函数建模输入输出关系

\[y_{i}=\beta_1 x_{i 1}+\beta_2 x_{i 2}+\cdots+\beta_p x_{i p}+\varepsilon_i \]
其中：
- \(y_{i}\) 是输出（预测目标）
- \(\boldsymbol{X}_i=\left(x_{i 1}, \ldots, x_{i p}\right)^{\top}\) 是输入向量
- \(\boldsymbol{\beta}=\left(\beta_1, \ldots, \beta_p\right)^{\top}\) 是参数（未知）
- \(\varepsilon_i\) 是一个观测噪声（随机）并假设 \(\mathbb{E}\left[\epsilon_i\right]=0\) ，\(\mathbb{V}\left[\epsilon_i\right]=\sigma^2\) 和 \(\left\{\epsilon_i\right\}_{i=1}^n\) 彼此独立（详情参见附录节）
从包括 \(\left(x_i, y_i\right)\) 的数据集中估算 \(\beta_i\)

例子

y：销售量，x：产品信息
y：燃料效率，x：引擎的设计
y：电力消耗，x：电力消耗历史，温度
y：毒性，x：化学成分信息

二维输入图

每个黑点都对应着 \((x_i,y_i)\)
红色平面表示 \(\boldsymbol{X}^{\top}\boldsymbol{\beta}\)
黑点和红色平面之间的差距就是 \(\varepsilon_i\)

向量矩阵符号

训练数据集 \(\left\{\left(x_{i},y_{i}\right)\right\}_{i=1}^{n}\)

\[\boldsymbol{X}=\left[\begin{array}{c} \boldsymbol{x}_{1}^{\top} \\ \vdots \\ \boldsymbol{x}_{n}^{\top} \end{array}\right]=\left[\begin{array}{ccc} x_{11} & \cdots & x_{1 p} \\ \vdots & & \vdots \\ x_{n 1} & \cdots & x_{n p} \end{array}\right] \in \mathbb{R}^{n \times p}, \boldsymbol{y}=\left[\begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array}\right] \in \mathbb{R}^{n} \]
模型也可以被写成

\[\boldsymbol{y}=\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon} \]
其中 \(\boldsymbol{\beta}=\left[\beta_{1}, \ldots, \beta_{p}\right]^{\top}\) ， \(\boldsymbol{\varepsilon}=\left[\varepsilon_{1}, \ldots, \varepsilon_{n}\right]^{\top}\)
- 注意 \(\boldsymbol{y}\) 是一个随机变量，因为 \(\boldsymbol{\varepsilon}\) 是一个随机变量
- \(\mathbb{E}[\varepsilon]=\mathbf{0}\) ， \(\mathbb{V}[\varepsilon]=\sigma^{2} \boldsymbol{I}\) （ \(\boldsymbol{I}\) 是单位矩阵）

Least-squares estimator (LSE) 最小二乘估计

误差平方和

\[\begin{aligned} \sum_{n}^{i=1} (y_i-x_i^{\top}\beta)^2 & = \begin{bmatrix}y_1-x_1^{\top}\beta&\cdots&y_n-x_n^{\top}\beta\end{bmatrix}\begin{bmatrix} y_1-x_1^{\top}\beta\\\vdots \\y_n-x_n^{\top}\beta\end{bmatrix}\\ & = (\boldsymbol{y}-\boldsymbol{X}\boldsymbol{\beta})^{\top}(\boldsymbol{y}-\boldsymbol{X}\boldsymbol{\beta})\\ & = \begin{Vmatrix} \boldsymbol{y}-\boldsymbol{X}\boldsymbol{\beta} \end{Vmatrix}^{2} \end{aligned} \]
最小二乘估计

\[\hat{\boldsymbol{\beta}} =\underset{\beta }{argmin} \begin{Vmatrix} \boldsymbol{y}-\boldsymbol{X}\boldsymbol{\beta} \end{Vmatrix}^{2} \]
这是一个凸二次最小化问题，可以解析求解

Closed Form Solution of LSE 最小二乘估计的闭式解

取误差平方和的导数

\[\frac{\partial}{\partial \boldsymbol{\beta}}\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|^{2} \]
因为 \(\|\boldsymbol{y}-\boldsymbol{x} \boldsymbol{\beta}\|^{2}\) 是凸函数，最小值可以通过将导数设置为0来确定

\[\begin{aligned} \frac{\partial}{\partial \boldsymbol{\beta}}\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|^{2} & = \frac{\partial}{\partial \boldsymbol{\beta}}(\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta})^{\top}(\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta})\\ & = \frac{\partial}{\partial \boldsymbol{\beta}}(\boldsymbol{y}^{\top }\boldsymbol{y}-\boldsymbol{y}^{\top }\boldsymbol{X}\boldsymbol{\beta}-(\boldsymbol{X}\boldsymbol{\beta})^{\top}\boldsymbol{y}-(\boldsymbol{X}\boldsymbol{\beta})^{\top}(\boldsymbol{X}\boldsymbol{\beta})) \end{aligned} \]
其中

\[\begin{aligned} (\boldsymbol{X}\boldsymbol{\beta})^{\top}\boldsymbol{y} & = \boldsymbol{\beta}^{\top}\boldsymbol{X}^{\top}\boldsymbol{y}\\ \boldsymbol{y}^{\top}\boldsymbol{X}\boldsymbol{\beta} & = \boldsymbol{\beta}^{\top}(\boldsymbol{y}^{\top}\boldsymbol{X})^{\top}\\ & = \boldsymbol{\beta}^{\top}\boldsymbol{X}^{\top}\boldsymbol{y} \end{aligned} \]
故

\[\begin{aligned} \frac{\partial}{\partial \boldsymbol{\beta}}\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|^{2} & = \frac{\partial}{\partial \boldsymbol{\beta}}(\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta})^{\top}(\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta})\\ & = \frac{\partial}{\partial \boldsymbol{\beta}}(\boldsymbol{y}^{\top }\boldsymbol{y}-\boldsymbol{y}^{\top }\boldsymbol{X}\boldsymbol{\beta}-(\boldsymbol{X}\boldsymbol{\beta})^{\top}\boldsymbol{y}-(\boldsymbol{X}\boldsymbol{\beta})^{\top}(\boldsymbol{X}\boldsymbol{\beta}))\\ & = \frac{\partial}{\partial \boldsymbol{\beta}}(\boldsymbol{y}^{\top }\boldsymbol{y}-2\boldsymbol{\beta}^{\top}\boldsymbol{X}^{\top}\boldsymbol{y}-(\boldsymbol{X}\boldsymbol{\beta})^{\top}(\boldsymbol{X}\boldsymbol{\beta}))\\ & = -2\boldsymbol{X}^{\top}\boldsymbol{y}+2\boldsymbol{X}^{\top}\boldsymbol{X}\boldsymbol{\beta} \end{aligned} \]
令

\[\begin{aligned} -2\boldsymbol{X}^{\top}\boldsymbol{y}+2\boldsymbol{X}^{\top}\boldsymbol{X}\boldsymbol{\beta} & = 0 \end{aligned} \]
\[\begin{aligned} \boldsymbol{X}^{\top}\boldsymbol{X}\boldsymbol{\beta} & = \boldsymbol{X}^{\top}\boldsymbol{y} \end{aligned} \]
假设 \((\boldsymbol{x}^{\top}\boldsymbol{x})^{-1}\) 存在，我们得到LSE为

\[\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{y} \]
即正规方程

Estimation Bias and Variance 估计偏差和方差

当 \(\boldsymbol{y}\) 是随机的， \(\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{y}\) 也是随机的

对具有随机性的数据进行的估计也包含随机性
- \(\hat{\boldsymbol{\beta}}\) 遵循一些分布，从中我们只能获得一个使用给定数据集计算的实现
  
  因为 \(\mathbb{E}[\boldsymbol{y}]=\mathbb{E}[\boldsymbol{X} \boldsymbol{\beta}+\varepsilon]=\boldsymbol{X} \boldsymbol{\beta}\) ，有
  
  \[\begin{aligned} \mathbb{E}[\boldsymbol{\hat{\beta}}] & = \mathbb{E}[(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{y}]\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\mathbb{E}[\boldsymbol{y}]\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{X}\boldsymbol{\beta} \end{aligned} \]
  因为
  
  \[(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{X}=\boldsymbol{I} \]
  故
  
  \[\mathbb{E}[\boldsymbol{\hat{\beta}}] = \boldsymbol{\beta} \]
  因为当 \(\boldsymbol{M}\) 为常数矩阵且 \(\boldsymbol{a}\) 为随机向量时，有
  
  \[\mathbb{V}[\boldsymbol{M} \boldsymbol{a}]=\boldsymbol{M} \mathbb{V}[\boldsymbol{a}] \boldsymbol{M}^{\top} \]
  且 \(\mathbb{V}[\varepsilon]=\sigma^{2} \boldsymbol{I}\) 故
  
  \[\begin{aligned} \mathbb{V}[\boldsymbol{\hat{\beta}}] & = \mathbb{V}[(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{y}]\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\mathbb{V}[\boldsymbol{y}]\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\sigma^{2} \boldsymbol{I}\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1} \end{aligned} \]
- 这种分布的性质在统计学中得到了广泛的研究，因为它有助于讨论LSE的优势（在假设检验中也很有用，尽管本课没有讨论它）
  - 在这里，我们考虑的是 \(\hat{\beta}\)

Estimation Bias and Estimation Variance 估计偏差和估计方差

上边一节已经推导过了

\(\hat{\beta}\) 被称作无偏估计量
估计方差的方程有助于评估估计器的不确定性
高斯-马尔可夫定理（详情见附录）
- LSE在所有无偏线性估计器中具有最小的估计方差，由此LSE被称为best linear unbiased estimator最佳线性无偏估计器（BLUE）

附录

范数

有 \(\boldsymbol{a}=\left(a_{1}, \ldots, a_{n}\right)^{\top}\) 时范数为

\[\|\boldsymbol{a}\|=\sqrt{a_{1}^{2}+\cdots+a_{n}^{2}} \]

向量求导

一般来说，对于函数f相对于向量 \(\boldsymbol{v}=\left(v_{1}, \ldots, v_{n}\right)\)

\[\frac{\partial f(\boldsymbol{v})}{\partial \boldsymbol{v}}=\left[\begin{array}{c} \frac{\partial f(\boldsymbol{v})}{\partial v_{1}} \\ \vdots \\ \frac{\partial f(\boldsymbol{v})}{\partial v_{n}} \end{array}\right] \]

对于常用的向量求导，参见Matrix Cookbook 2.4

期望与方差

对于连续的随机变量 \(x\in \mathbb{R}\)

\[\mathbb{E}[x]=\int_{x} x p(x) \mathrm{d} x \]
如果x是离散变量 \(x\in \mathcal{X}\) ， \(\mathcal{X}\) 是一组候选值

\[\mathbb{E}[x]=\sum_{x \in \mathcal{X}} x p(x) \]
方差

\[\mathbb{V}[x]=\mathbb{E}\left[(x-\mathbb{E}[x])^{2}\right] \]
两个随机变量x和y的协方差为

\[\operatorname{Cov}(x, y)=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])] \]

期望与协方差矩阵

\(\mathbb{E}\) 表示随机变量的期望值，对于随机变量的向量 \(\boldsymbol{a}=\left(a_{1}, \ldots, a_{n}\right)^{\top}\) ，有

\[\mathbb{E}[\boldsymbol{a}]=\left[\begin{array}{c} \mathbb{E}\left[a_{1}\right] \\ \vdots \\ \mathbb{E}\left[a_{n}\right] \end{array}\right] \]
对于随机变量的向量 \(\boldsymbol{a}=\left(a_{1}, \ldots, a_{n}\right)^{\top}\) ，协方差 \(\mathbb{V}[\mathbf{a}]\) 为

\[\mathbb{V}[\mathbf{a}]=\mathbb{E}\left[(\mathbf{a}-\mathbb{E}[\mathbf{a}])(\boldsymbol{a}-\mathbb{E}[\mathbf{a}])^{\top}\right] \]
注意， \(\mathbb{V}[\mathbf{a}]\) 的 \(i\) ， \(j\) 元素对应于协方差\(a_i\)和\(a_j\)的

例如， \(\operatorname{Cov}\left(a_{i}, a_{j}\right)=\mathbb{E}\left[\left(a_{i}-\mathbb{E}\left[a_{i}\right]\right)\left(a_{j}-\mathbb{E}\left[a_{j}\right]\right)\right]\)

线性变换向量的协方差矩阵

当 \(\boldsymbol{M}\) 为常数矩阵且 \(\boldsymbol{a}\) 为随机向量时，有

\[\mathbb{V}[\boldsymbol{M} \boldsymbol{a}]=\boldsymbol{M} \mathbb{V}[\boldsymbol{a}] \boldsymbol{M}^{\top} \]

这可以通过 \(\mathbb{V}\) 的定义来证明

\[\begin{aligned} \mathbb{V}[\mathbf{M a}] & =\mathbb{E}\left[(\mathbf{M a}-\mathbb{E}[\mathbf{M a}])(\boldsymbol{M a}-\mathbb{E}[\mathbf{M a}])^{\top}\right] \\ & =\boldsymbol{M} \mathbb{E}\left[(\mathbf{a}-\mathbb{E}[\mathbf{a}])(\boldsymbol{a}-\mathbb{E}[\mathbf{a}])^{\top}\right] M^{\top} \\ & =\boldsymbol{M}[\mathbf{a}] M^{\top} \end{aligned} \]

矩阵的不等式

矩阵 \(\boldsymbol{M}\) 的不等式

\[\boldsymbol{M}≥0 \]
将其表示为半正定矩阵

\[\boldsymbol{x}^{\top}\boldsymbol{M}\boldsymbol{x}≥0 \]
对于 \(\forall\boldsymbol{x}\) 等价地， \(\boldsymbol{M}\) 的所有特征值都是非负的
那么， \(\boldsymbol{A}≥\boldsymbol{B}\) 表示 \(\boldsymbol{A}-\boldsymbol{B}≥0\) ，这意味着 \(\boldsymbol{A}-\boldsymbol{B}\) 是半正定的

高斯-马尔可夫定理

假设一个矩阵 \(\boldsymbol{C}\in \mathbb{R}^{p×n}\) 满足

\[\boldsymbol{\beta} = \mathbb{E}[\boldsymbol{C}\boldsymbol{y}] \]
- \(\boldsymbol{C}\boldsymbol{y}\) 称为无偏线性估计量，因为它是 \(\boldsymbol{y}\) 的无偏线性变换
- 当 \(\boldsymbol{C}=(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\) 时， \(\boldsymbol{C}\boldsymbol{y}\) 为LSE
- 当 \(\boldsymbol{\beta}=\mathbb{E}[\boldsymbol{C}(\boldsymbol{X} \boldsymbol{\beta}+\varepsilon)] \Rightarrow \boldsymbol{\beta}=\boldsymbol{C} \boldsymbol{X} \boldsymbol{\beta} \Rightarrow \mathbf{I}=\boldsymbol{C} \boldsymbol{X}\) 时，任何满足 \(\mathbf{I}=\boldsymbol{C} \boldsymbol{X}\) 的 \(\boldsymbol{C}\) 都会变成无偏（并且可以存在）
高斯-马尔可夫定理保证（省略证明）

\[\mathbb{V}[\hat{\boldsymbol{\beta}}] \leq \mathbb{V}[\boldsymbol{C y}] \]

习题

Exercise 0: Short Quiz

在适当的假设下，最小二乘估计量的期望值等于真实值。通常，具有这种性质的估计量称为[（A）]估计量。什么是[（A）]？

无偏估计量

Exercise 1

证明 \(\mathbb{V}[\boldsymbol{\hat{\beta}}] = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\)

上边已经证明过了
\[\begin{aligned} \mathbb{V}[\boldsymbol{\hat{\beta}}] & = \mathbb{V}[(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{y}]\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\mathbb{V}[\boldsymbol{y}]\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\sigma^{2} \boldsymbol{I}\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\boldsymbol{X}^{\top}\boldsymbol{X}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1} \end{aligned} \]

Exercise 2

令

\[\mathbf{X}=\left[\begin{array}{cc} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{n 2} & x_{n 2} \end{array}\right] \]

假设 \(\mathbf{X}\) 满足

每个维度的平均值为零：

\(\bar{x}_{j}=\frac{1}{n} \sum_{i=1}^{n} x_{i j}=0(\text { for } j=1,2)\)
每个维度的方差为一：

\(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i j}-\bar{x}_{j}\right)^{2}=\frac{1}{n} \sum_{i=1}^{n} x_{i j}^{2}=1(\text { for } j=1,2)\)
两个维度的协方差为零：

\(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i 1}-\bar{x}_{1}\right)\left(x_{i 2}-\bar{x}_{2}\right)=\frac{1}{n} \sum_{i=1}^{n} x_{i 1} x_{i 2}=0\)

写出 \(\mathbb{V}[\boldsymbol{\hat{\beta}}]\)

\[\begin{aligned} \mathbb{V}[\boldsymbol{\hat{\beta}}] & = \sigma^{2}(\boldsymbol{X}^{\top}\boldsymbol{X})^{-1}\\ & = \sigma^{2}(\left[\begin{array}{cc} x_{11} & \cdots & x_{n1} \\ x_{12} & \cdots & x_{n 2} \end{array}\right]\left[\begin{array}{cc} x_{11} & x_{12} \\ \vdots & \vdots \\ x_{n 2} & x_{n 2} \end{array}\right])^{-1}\\ & = \sigma^{2}\left[\begin{array}{cc} \sum_{i=1}^{n} x_{i2}^2 & \sum_{i=1}^{n} x_{i1}x_{i2}\\ \sum_{i=1}^{n} x_{i1}x_{i2} & \sum_{i=1}^{n} x_{i2}^2 \end{array}\right]^{-1}\\ & = \sigma^{2}\left[\begin{array}{cc} n & 0\\ 0 & n \end{array}\right]^{-1}\\ & = \sigma^{2}\left[\begin{array}{cc} \frac{1}{n} & 0\\ 0 & \frac{1}{n} \end{array}\right]\\ \end{aligned} \]

posted @ 2023-05-03 16:55 ryukirin 阅读(22) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

ryukirin