最小角回归详解

本文介绍LAR（Least angle regression，最小角回归），由Efron等（2004）提出。这是一种非常有效的求解LASSO的算法，可以得到LASSO的解的路径。

1 算法介绍

我们直接看最基本的LAR算法，假设有\(N\)个样本，自变量是\(p\)维的：

先对\(X\)（\(N\times p\)）做标准化处理，使得每个predictor（\(X\)的每列）满足\(x_{\cdot j}' 1_N=0\)，\(\Vert x_{\cdot j}\Vert=1\)。我们先假设回归模型中只有截距项，则\(\beta_0=\dfrac{1}{N} y' 1_N\)，记残差\(r=y-1_N \beta_0\)，而其他的系数\(\beta_1=\cdots=\beta_p=0\)；
找出与\(r\)相关性最大的\(x_{\cdot j}\)，加入active set；
将\(\beta_j\)从\(0\)逐步向LS系数\(x_{\cdot j}'r\)变动，直到有另一个\(x_{\cdot k}\)，它与\(r\)的相关系数绝对值，和\(x_{\cdot j}\)与\(r\)的相关系数绝对值一样大；
将\(\beta_j\)和\(\beta_k\)同时向二者的联合LS系数变动，直到再出现下一个\(x_{\cdot l}\)，它与\(r\)的相关系数满足上一步的条件；
重复上述过程，\(\min(N-1,p)\)步后，就得到完整的LS解。

2 算法性质

2.1 保持最小角

我们先来看LS估计量的一个性质：若每个predictor与\(y\)的相关系的数绝对值相等，从此时开始，将所有系数的估计值同步地从\(0\)移向LS估计量，在这个过程中，每个predictor与残差向量的相关系数会同比例地减少。

假设我们标准化了每个predictor和\(y\)，使他们均值为\(0\)，标准差为\(1\)。在这里的设定中，对于任意\(j=1,\ldots,p\)，都有\(\left|x_{\cdot j}'y\right|/N=\lambda\)，其中\(\lambda\)为常数。LS估计量\(\hat\beta=(X'X)^{-1}X'y\)，当我们将系数从\(0\)向\(\hat\beta\)移动了\(\alpha\)（\(\alpha\in[0,1]\)）比例时，记拟合值为\(u(\alpha)=\alpha X\hat\beta\)。

另外，记\(\ell_p^{(j)}\)为只有第\(j\)个元素为\(1\)、其他元素均为\(0\)的\(p\)维向量，则\(x_{\cdot j}=X\ell_p^{(j)}\)，再记\(\text{RSS}=\Vert y-X\hat\beta\Vert^2\)，记投影矩阵\(P=X(X'X)^{-1}X'\)。

这里的问题是，在\(\alpha\)变大过程中，每一个\(x_{\cdot j}\)与新的残差的相关系数，是否始终保持相等？且是否会减小？

由于\(\left| x_{\cdot j}' [y-u(\alpha)]\right|=\left|x_{\cdot j}'y - \ell_p^{(j)\prime} X' u(\alpha)\right|=(1-\alpha)N\lambda\)，即内积与\(j\)无关。再由\(\text{RSS}=(y-Py)'(y-Py)=N-y'Py\)可知\(y'Py=N-\text{RSS}\)。

相关系数的绝对值

\[\begin{aligned} \lambda(\alpha)=& \dfrac{\left| x_{\cdot j}' [y-u(\alpha)]\right|}{\Vert x_{\cdot j}\Vert \Vert y-u(\alpha)\Vert}\\ =& \dfrac{(1-\alpha)N\lambda}{\sqrt{N} \sqrt{[y-u(\alpha)]'[y-u(\alpha)]}}\\ =& \dfrac{(1-\alpha)N\lambda}{\sqrt{N} \sqrt{N(1-\alpha)^2+(2\alpha-\alpha^2)\text{RSS}}}\\ =& \begin{cases} \dfrac{\lambda}{\sqrt{1+\left[-1+\dfrac{1}{(1-\alpha)^2}\right]\dfrac{\text{RSS}}{N}}},&\alpha\in [0,1)\\ 0,&\alpha=1 \end{cases} \end{aligned} \]

因此，任意predictor与当前残差的相关系数绝对值，会随着\(\alpha\)的增加，同比例地减小，并且\(\lambda(0)=\lambda\)，\(\lambda(1)=0\)。

现在，我们再回顾一下LAR的过程。在第\(k\)步开始时，将所有active set中的predictor的集合记为\(\mathcal{A}_k\)，此时在上一步估计完成的系数为\(\hat\beta_{\mathcal{A}_k}\)，它是\(k-1\)维且每个维度都非零的向量，记此时残差为\(r_k=y-X_{\mathcal{A}_k}\hat\beta_{\mathcal{A}_k}\)，用\(r_k\)对\(X_{\mathcal{A}_k}\)做回归后系数为\(\delta_k=(X_{\mathcal{A}_k}'X_{\mathcal{A}_k})^{-1}X_{\mathcal{A}_k}' r_k\)，拟合值\(u_k=X_{\mathcal{A}_k}\delta_k\)。另外，我们知道\(X_{\mathcal{A}_k}'u_k=X_{\mathcal{A}_k}'r_k\)，而一个predictor加入\(\mathcal{A}_k\)的条件就是它与当前\(r_k\)的相关系数的绝对值等于\(\mathcal{A}_k\)中的predictor与当前\(r_k\)的相关系数的绝对值，所以\(X_{\mathcal{A}_k}' r_k\)向量的每个维度的绝对值都相等，也即\(X_{\mathcal{A}_k}' u_k\)的每个维度的绝对值都相等，\(u_k\)就是与各个\(\mathcal{A}_k\)中的predictor的角度都相等的向量，且与它们的角度是最小的，而\(u_k\)也是下一步系数要更新的方向，这也是“最小角回归”名称的由来。

2.2 参数更新

那么，在这个过程中，是否需要每次都逐步小幅增加\(\alpha\)，再检查有没有其他predictor与残差的相关系数绝对值？有没有快速的计算\(\alpha\)的方法？答案是有的。

在第\(k\)步的开始，\(\mathcal{A}_k\)中有\(k-1\)个元素，我们记\(\hat c=X'r_k\)，其中\(r_k=y-\hat y_{\mathcal{A}_k}\)，并记\(\hat C=\max_j \{\left|\hat c_j\right|\}\)，此时的active set其实就是\(\mathcal{A}_k=\{j:\left|\hat c_j\right|=\hat C\}\)。在这里，我们将\(X_{\mathcal{A}_k}\)做个修改，记\(s_j=\text{sign}(\hat c_j)\)，再令\(X_{\mathcal{A}_k}=[\cdots s_jx_{\cdot j}\cdots]_{j\in\mathcal{A}_k}\)。

此时更新方向为\(u_k\)，\(X_{\mathcal{A}_k}' u_k=1_{k-1}\hat C\)，并取\(a\equiv X' u_k\)。更新的规则为\(\hat y_{\mathcal{A}_k}(\alpha)= \hat y_{\mathcal{A}_k}+\alpha u_k\)。因此，任一predictor，与当前残差的内积就为\(c_j(\alpha)=\hat c_j-\alpha a_j\)，而对于\(j\in \mathcal{A}_k\)，有\(\left| c_j(\alpha)\right|=\hat C-\alpha \hat C\)。

对于\(j\in \mathcal{A}_k^c\)，如果要使\(x_{\cdot j}\)与当前残差的相关系数绝对值，与在\(\mathcal{A}_k\)中的predictor与当前残差的相关系数绝对值相等，也即它们的内积的绝对值相等，必须要满足\(|\hat c_j-\alpha a_j|=(1-\hat\alpha_j)\hat C\)。问题转化为了求解使它们相等的\(\hat\alpha_j\)，并对于所有的\(j\in \mathcal{A}_k^c\)，最小的\(\hat\alpha_j\)即为最后的更新步长。

由于\(|\hat c_j|\lt \hat C\)，因此只需考虑\(\hat c_j\)与\(a_j\)的大小关系即可。最后解为

\[\hat\alpha_j=\begin{cases} \dfrac{\hat C-\hat c_j}{\hat C-a_j}, & \hat c_j\gt a_j\\ \dfrac{\hat C+\hat c_j}{\hat C+a_j}, & \hat c_j\leq a_j\\ \end{cases} \]

注意到

\[\dfrac{\hat C-\hat c_j}{\hat C-a_j}-\dfrac{\hat C+\hat c_j}{\hat C+a_j}=\dfrac{2\hat C(a_j-\hat c_j)}{\hat C^2-a_j^2} \]

因此，当\(\hat c_j\gt a_j\)时，除非\(a_j\lt -\hat C\)即\(\dfrac{\hat C+\hat c_j}{\hat C+a_j}\lt 0\)，否则必有\(\dfrac{\hat C-\hat c_j}{\hat C-a_j} \lt \dfrac{\hat C+\hat c_j}{\hat C+a_j}\)。反之，当\(\hat c_j\leq a_j\)时，除非\(a_j\gt \hat C\)即\(\dfrac{\hat C-\hat c_j}{\hat C-a_j}\lt 0\)，否则必有\(\dfrac{\hat C-\hat c_j}{\hat C-a_j} \geq \dfrac{\hat C+\hat c_j}{\hat C+a_j}\)。综上所述，上面的解可以写为

\[\hat \alpha=\min_{j\in \mathcal{A}_k^c}\left\{\dfrac{\hat C-\hat c_j}{\hat C-a_j},\dfrac{\hat C+\hat c_j}{\hat C+a_j}\right\}^+ \]

其中\(\{\}^+\)表示只对其中正的元素有效，而丢弃负的元素。

3 LAR与LASSO

LAR虽然是求解LASSO的算法，但它得到的解的路径，在出现了某个系数要穿过\(0\)的情况时，有可能与LASSO不一样。因此，想要完全得到LASSO的解的路径，还需要做修正。

我们在第1节算法的第4步中加入一个规则：

若一个非零系数又变为了\(0\)，将该predictor从active set中剔除，重新计算当前的LS解作为更新方向。

在修正后，LAR就可以解任意LASSO问题，包括\(p\gg N\)的问题。

为什么会出现与LASSO解不同的情况？我们注意到，对于LASSO的active set \(\mathcal{B}\)中的predictor，它的系数需要满足

\[x_{\cdot j}'(y-X\hat\beta) = \lambda \text{sign}(\hat\beta_j) \]

而对于LAR的active set \(\mathcal{A}\)中的predictor，它的系数需要满足

\[x_{\cdot j}'(y-X\hat\beta) = \gamma s_j \]

其中\(s_j\)为左边内积的符号。

在正常情况下，上面二者的右侧是相等的，也因此LAR的解就是LASSO的解。但是，当一个非零系数要穿过\(0\)时，它不再满足LASSO的解条件，因此会被踢出\(\mathcal{B}\)，而LAR的解条件却可能没有突变（因为\(s_j\)是由内积的符号而非系数的符号决定的）。在系数到达\(0\)时，它满足

\[x_{\cdot j}'(y-X\hat\beta) \leq \lambda \]

这恰恰与\(\mathcal{A}^c\)中的predictor的条件一致，因此可以将它也踢出\(\mathcal{A}\)，这样就让LAR与LASSO相一致了。

参考文献

Efron, Bradley, Trevor Hastie, Iain Johnstone, and Robert Tibshirani. "Least angle regression." Annals of statistics 32, no. 2 (2004): 407-499.
Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media, 2009.

发表于 2021-06-29 17:34 分析101 阅读(994) 评论(0) 编辑收藏举报