L1, L2正则

正则的目的:规范模型参数,降低模型复杂度,减少过拟合

\[||w||_1 = \sum_1^N |w_i| \]

\[||w||_2 = \sqrt {\sum_1^N |w_i|^2} \]

拉格朗日对偶角度

模型经过训练后得到的W与b可能很小,也可能很大。
若W与b较大,在测试数据时,$ W*X $会放大输入中的误差与噪声
因此,需要给W划定可行域范围,使其在训练时尽可能小。

  1. \[min\ J(W,b,x) \\ s.t. ||w||_1 - C <= 0 \]

i.e., W 在高维空间中与原点的L1(曼哈顿)距离小于等于 C
2. $$ min\ J(W,b,x) \ s.t. ||w||_2 - C <= 0 $$
i.e., W 在高维空间中与原点的L2(欧几里得)距离小于等于 C

构造拉格朗日函数:

\[ \begin{aligned} L(s,\lambda) &= J(s) + \lambda(||w||_1 - C) \\ &= J(w) + \lambda||w||_1 - \lambda C \\ \end{aligned} \\ \\ \begin{aligned} \hat{L}(s,\lambda) &= L(s,\lambda) + \lambda C\\ &= J(w) +\lambda||w||_1 \end{aligned}\]

其中,$ \hat{L}(s,\lambda)= J(w) +\lambda||w||_1$ 是常见的目标函数形式:$ min\ Obj=Cost+Regularization\ Term$

权重衰减角度

无正则项的情况下,权重更新:

\[w_{i+1} = w_i - \frac{\partial Obj}{\partial w_i} = w_i - \frac{\partial loss}{\partial w_i} \]

有正则项(L2):

\[w_{i+1} = w_i - \alpha (\frac{\partial loss}{\partial w_i} + \lambda w_i) = w_i(1-\alpha \lambda)-\alpha \frac{\partial loss}{\partial w_i} \]

其中,$ \alpha $ 为学习率
l1与l2的区别:
l1具有稀疏性。

假设x,y轴代表两种特征,l1正则方法与loss的等高线更容易相切于y轴,在此情况下,x轴的值为0。等同于只有y轴特征起作用,x轴特征不起作用,实现特征间去耦合。

posted @ 2022-03-22 15:23  ArdenWang  阅读(43)  评论(0编辑  收藏  举报