L1, L2正则

正则的目的：规范模型参数，降低模型复杂度,减少过拟合

\[||w||_1 = \sum_1^N |w_i| \]

\[||w||_2 = \sqrt {\sum_1^N |w_i|^2} \]

拉格朗日对偶角度

模型经过训练后得到的W与b可能很小，也可能很大。
若W与b较大，在测试数据时，$ W*X $会放大输入中的误差与噪声。
因此，需要给W划定可行域范围，使其在训练时尽可能小。

\[min\ J(W,b,x) \\ s.t. ||w||_1 - C <= 0 \]

i.e., W 在高维空间中与原点的L1（曼哈顿）距离小于等于 C
2. $$ min\ J(W,b,x) \ s.t. ||w||_2 - C <= 0 $$
i.e., W 在高维空间中与原点的L2（欧几里得）距离小于等于 C

构造拉格朗日函数：

\[ \begin{aligned} L(s,\lambda) &= J(s) + \lambda(||w||_1 - C) \\ &= J(w) + \lambda||w||_1 - \lambda C \\ \end{aligned} \\ \\ \begin{aligned} \hat{L}(s,\lambda) &= L(s,\lambda) + \lambda C\\ &= J(w) +\lambda||w||_1 \end{aligned}\]

其中，$ \hat{L}(s,\lambda)= J(w) +\lambda||w||_1$ 是常见的目标函数形式：$ min\ Obj=Cost+Regularization\ Term$

权重衰减角度

无正则项的情况下，权重更新：

\[w_{i+1} = w_i - \frac{\partial Obj}{\partial w_i} = w_i - \frac{\partial loss}{\partial w_i} \]

有正则项(L2)：

\[w_{i+1} = w_i - \alpha (\frac{\partial loss}{\partial w_i} + \lambda w_i) = w_i(1-\alpha \lambda)-\alpha \frac{\partial loss}{\partial w_i} \]

其中，$ \alpha $ 为学习率
l1与l2的区别：
l1具有稀疏性。

假设x，y轴代表两种特征，l1正则方法与loss的等高线更容易相切于y轴，在此情况下，x轴的值为0。等同于只有y轴特征起作用，x轴特征不起作用，实现特征间去耦合。

posted @ 2022-03-22 15:23 ArdenWang 阅读(45) 评论(0) 编辑收藏举报

刷新页面返回顶部

ArdenWang

L1, L2正则

拉格朗日对偶角度

权重衰减角度

公告