【Stanford Machine Learning Open Course】8. 过拟合问题解决以及在回归问题和分类问题上的应用

这里是斯坦福大学机器学习网络课程的学习笔记。课程地址是：https://class.coursera.org/ml-2012-002/lecture/index

一、过拟合：是指因过分强调对训练样本的效果导致过度拟合，使得对未知预测样本效果就会变差的一种情况。

二、什么情况下出现过拟合：

当你拟合的函数中，一些特征权重阶数越高时，过度拟合的情况越有可能发生，反之阶数越小，过拟合发生概率越小，甚至会欠拟合。

比如有三个拟合函数：

a₀+a₁x₁+ a₂x₂

^{a₀+ a₁x₁+ a₂x₂ + a₃x₁² + a₄x₂²}

a₀+ a₁x₁+ a₂x₂ + a₃x₁² + a₄x₂²+ a₅x₁³ + a₆x₂³

则最后这个过拟合的可能最高。

三、如何解决过拟合问题：

1. 将那些特征权重阶数高的特征删除。比如在上面的例子中删除特征x₁³ 、x₂³。

删除方式有两种：

　　一种：人工查看样本集合筛选

另一种：有机器学习的规则用于筛选这种特征，后续才会讲到。

2. 正则化：特征全部保留，但特征系数进行最小优化。

设一般情况下的成本函数为costFucntion(a,x,y)

为了时特征系数减小，以使ax^j变小，新的成本函数为 costFunction_reg(a,x,y) = costFunction(a,x,y) + sum(a_j²)

　　我们将这种处理叫做正则化

　　新增的正则化项为 a₀² + a₁² + ... + a_n², 惯例上不要a₀²这项（他是1的系数），但即使加上效果影响不大。

四、正则化的线性回归问题

成本函数：costFunction(a,X,y) = 1/2m *sum((h(a,X)-y).^2)，其中h(a,X)=Xa;

正则化后：costFunctionReg(a,X,y) = costFunction(a,X,y) + lambda*sum(a_j²)

梯度下降法：a_j = a_j - 1/m *alpha * ( h(a,X)-y ) * X_j

正则化后：a_j = a_j - 1/m * alpha * ( h(a,X)-y ) * X_j- 1/m * alpha * lambda * a_j

正规方程组解法 a = (X^T*X)^-1*X^T*y

正则化后：a = (X^T*X - lambda * I )^-1*X^T*y

五、logistic分类问题过拟合解决

　　成本函数：costFunction(h_a(x),y) = -y*log( h_a(x) ) - (1-y)*log( 1- h_a(x))

　　　　正则化后：costFunctionReg(h_a(x),y) = costFunction(h_a(x),y) + lambda*sum(a_j²)

　　梯度下降法：a_j =a_j - 1/m*(h_a(x)-y )* X_j;

　　　　正则化后：a_j =a_j - 1/m*(h_a(x)-y )* X_j -1/m*lambda*a

posted @ 2012-09-26 19:11 liyuxia713 阅读(1114) 评论(0) 编辑收藏举报

刷新页面返回顶部

liyuxia