原文地址:https://www.jianshu.com/p/e3116693e5c3
一、正则化的假设集合
通过从高次多项式的\(H\)退回到低次多项式的\(H\)来降低模型复杂度,以减小过拟合的可能性。如何退回?
通过加上约束条件:
如果加了严格的约束条件,就没有必要从\(H_{10}\)退回到\(H_{2}\),直接使用\(H_{2}\)就可以了。
因此,加上松弛点的约束条件,使得模型比\(H_{2}\)复杂,但到不了\(H_{10}\)那么复杂。
二、权重衰减正则化
可以通过拉格朗日乘子法处理带约束的优化问题。
可视化解释如下:
只看谷的话,需沿着梯度反方向下降到谷底;只看超球面的话,需沿着垂直于法向量的方向滚。判断当前\(W\)是否是最优解就看它能否在超球面上的同时还能向更接近谷底的方向滚。数学上,可理解为梯度反方向在法向量方向上投影不为0;否则,即梯度反方向平行于当前法向量。此时已经是最优解。
也可以通过求导证到相同结论。
权重衰减正则项 ------ 权重大小受到限制。
三、正则化和VC理论
正则化后,有效VC维变小。
四、通用正则项
通用正则项选择:
基于目标的、情理上说得通的、便于求解的。
与代价函数选择类似。
注:namuta = lambda = \(\lambda\)。