L2 正则化下的解(线性回归到岭回归)

\(L^2\) 正则

结论

\[\begin{align*} J=(\pmb X\pmb w-\pmb y)^T(\pmb X\pmb w-\pmb y)&\implies\pmb w=(\pmb X^T\pmb X)^{-1}\pmb X^T\pmb y\\ \widetilde J=(\pmb X\pmb w-\pmb y)^T(\pmb X\pmb w-\pmb y)+\lambda\pmb w^T\pmb w&\implies\pmb{\widetilde w}=(\pmb X^T\pmb X+\lambda\pmb I)^{-1}\pmb X^T\pmb y\\ \end{align*} \]


计算过程

一般的,损失函数为 \(J(\pmb w;\pmb X,\pmb y)\),加入 \(L^2\) 范数后 \(\widetilde J(\pmb w;\pmb X,\pmb y)=J(\pmb w;\pmb X,\pmb y)+\lambda\pmb w^T\pmb w\)

\(\pmb w_0\) 作近似 \(J(\pmb w)\approx J(\pmb w_0)+\nabla_{\pmb w}J^T(\pmb w_0)\cdot(\pmb w-\pmb w_0)+\frac12(\pmb w-\pmb w_0)^T\cdot\pmb H(\pmb w_0)\cdot(\pmb w-\pmb w_0)\) ,如果 \(J\) 为二次函数,则 \(\approx\) 可以改为 \(=\)

取梯度 \(\nabla_{\pmb w} J(\pmb w)=\nabla_{\pmb w}J(\pmb w_0)+\pmb H(\pmb w_0)\cdot(\pmb w-\pmb w_0)\)

其中 \(\pmb H(\pmb w_0)\)\(J\)\(\pmb w_0\) 的黑塞矩阵(Hessian matrix),\(\pmb H(\pmb w_0)_{i,j}={\partial^2J\over\partial \pmb w_0^{(i)}\partial\pmb w_0^{(j)}}\)

\[\begin{align*} \begin{array}{ll} \begin{array}{ll} \text{let }\pmb w^*=\underset{\pmb w}{\arg\min}[J(\pmb w;\pmb X,\pmb y)],&\text{s.t. }\nabla_{\pmb w}J(\pmb w^*)=0 \end{array}\\[0.1cm] \nabla_{\pmb w}\widetilde J(\pmb w)=\nabla_{\pmb w}J(\pmb w)+2\lambda\pmb w=\nabla J(\pmb w_0)+\pmb H(\pmb w_0)\cdot(\pmb w-\pmb w_0)+2\lambda\pmb w\\[0.5cm] \begin{array}{ll} \text{let }\pmb{\widetilde w}^*=\underset{\pmb w}{\arg\min}[\widetilde J(\pmb w;\pmb X,\pmb y)],&\text{s.t. }\nabla_{\pmb w}\widetilde J(\pmb{\widetilde w}^*)=0\\ \end{array}\\ \nabla_{\pmb w}\widetilde J(\pmb{\widetilde w}^*)=\nabla_{\pmb w}J(\pmb w_0)+\pmb H(\pmb w_0)\cdot(\pmb{\widetilde w}^*-\pmb w_0)+2\lambda\pmb{\widetilde w}^*\\ \qquad\qquad\ \xlongequal{\pmb w_0\leftarrow\pmb w^*}0+\pmb H(\pmb w^*)\cdot(\pmb{\widetilde w}^*-\pmb w^*)+2\lambda\pmb{\widetilde w}^*=0\\ \pmb{\widetilde w}^*=\left[\pmb H(\pmb w^*)+2\lambda\pmb I\right]^{-1}\cdot\pmb H(\pmb w^*)\cdot\pmb w^* \end{array}\\ \end{align*} \]

得到 \(L^2\) 正则后的最优解和原最优解的变换公式,然后将 Hessian 矩阵求解代入

\[\begin{align*} J&=(\pmb X\pmb w-\pmb y)^T(\pmb X\pmb w-\pmb y)\\ &={\pmb w}^T{\pmb X}^T\pmb X\pmb w-2{\pmb w}^T{\pmb X}^T\pmb y+{\pmb y}^T\pmb y\\ {\partial J\over\partial \pmb w}&=2{\pmb X}^T\pmb X\pmb w-2{\pmb X}^T\pmb y\\ \pmb H&={\partial\over\partial \pmb w}\left({\partial J\over\partial \pmb w}\right)^T=2{\pmb X}^T\pmb X\\ \pmb{\widetilde w}^*&=\left[\pmb H+2\lambda\pmb I\right]^{-1}\cdot\pmb H\cdot\pmb w^*\\ &=\left[2{\pmb X}^T\pmb X+2\lambda\pmb I\right]^{-1}\cdot2{\pmb X}^T\pmb X\cdot(\pmb X^T\pmb X)^{-1}\pmb X^T\pmb y\\ &=\left[{\pmb X}^T\pmb X+\lambda\pmb I\right]^{-1}\cdot\pmb X^T\pmb y \end{align*} \]

posted @ 2022-10-27 14:55  Violeshnv  阅读(41)  评论(0编辑  收藏  举报