摘要: 1.梯度下降法 (1)需要选择学习率a (2)需要多次迭代 优点:梯度下降法在特征变量很多的情况下也能运行地相当好 2.正规方程法 (1)不需要选择学习率a (2)不需要迭代 (3) 正规方程法不需要做特征缩放 缺点:当正规方程法的特征矩阵维度比较大时,会慢很多 总结:当n维比较小时,正规方程法比较 阅读全文
posted @ 2018-07-28 19:18 流星小子 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 梯度下降法公式: 求 就是找到一个 能够最小化代价函数J() 如何确保梯度下降正常工作?如何选择学习率a (learning rate )? 今天就给大家总结一下学习率有关的知识 当学习率a选择过大可能出现随着迭代次数的增加,代价函数J() 越来越大,不会收敛。 这个时候就需要减小学习率。 数据家已 阅读全文
posted @ 2018-07-28 17:17 流星小子 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 梯度下降法 既然在变量空间的某一点处,函数沿梯度方向具有最大的变化率,那么在优化目标函数的时候,自然是沿着负梯度方向去减小函数值,以此达到我们的优化目标。 如何沿着负梯度方向减小函数值呢?既然梯度是偏导数的集合,如下: 同时梯度和偏导数都是向量,那么参考向量运算法则,我们在每个变量轴上减小对应变量值 阅读全文
posted @ 2018-07-28 16:51 流星小子 阅读(113) 评论(0) 推荐(0) 编辑