1. 模型的欠拟合、过拟合
无论是回归问题还是分类问题都可能存在模型的欠拟合和过拟合的情况。下图是回归问题中的例子:
第一个模型欠拟合,第二个模型刚好拟合,第三个过拟合。
下图是分类问题中的例子:
第一个模型欠拟合,第二个模型刚刚好,第三个模型过拟合。
对于过拟合问题,我们通常有以下方法:
1. 丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如 PCA)
2. 正则化。 保留所有的特征,但是减少参数的大小(magnitude)。
2. 正则化
常见的正则化方式是在原模型优化目标的基础上,增加对参数的惩罚项(Penalty)
正则化线性回归的代价函数为:
如果我们要使用梯度下降法令这个代价函数最小化,因为我们未对 θ0进行正则化,所 以梯度下降算法将分两种情形:
对上面的算法中 j=1,2,...,n 时的更新式子进行调整可得:
可以看出,正则化线性回归的梯度下降算法的变化在于,每次都在原有算法更新规则的基础上令θ值减少了一个额外的值。
参考资料:斯坦福大学公开课:机器学习课程http://open.163.com/special/opencourse/machinelearning.html