梯度下降法的高效使用

摘要: 1. 特征缩放(Feature Scaling) 有多维特征的时候,当这些特征都具有相近的尺度时,梯度下降算法能更快收敛。 例如有两个特征,他们的尺度分别为0 - 2000 和 0 - 5,那么他们的代价函数等高线图如下: 可以看出图像显得很扁,梯度下降算法往往需要很多次的迭代才能收敛。 解决方案: 阅读全文
posted @ 2017-07-14 17:31 J_K_Guo 阅读(311) 评论(0) 推荐(0) 编辑

批量梯度下降法(Batch Gradient Descent)

摘要: 批量梯度下降:在梯度下降的每一步中都用到了所有的训练样本。 思想:找能使代价函数减小最大的下降方向(梯度方向)。 ΔΘ = - α▽J α:学习速率 梯度下降的线性回归 线性模型的代价函数: 对于更新项,为什么是 - α▽J : Θ如果在极值点右边,偏导大于0,则Θ要减去偏导的值(Θ偏大,减去一个正 阅读全文
posted @ 2017-07-13 21:53 J_K_Guo 阅读(1380) 评论(0) 推荐(0) 编辑

线性模型——线性回归

摘要: 注: 在模型拟合中,极大似然函数的本质就是让我们用来拟合数据的模型与每一个数据点的更为相符,这就要求偏差的大小应该是基本一致,或者说符合正态分布,那么偏差大小基本一致与不一致怎么区别呢?这里我们用偏差出现的概率相乘的大小来表示。因为概率大小都在0到1之间并符合期望为x的正态分布,两个偏差值越接近中心 阅读全文
posted @ 2017-07-13 12:27 J_K_Guo 阅读(291) 评论(0) 推荐(0) 编辑

机器学习概述

摘要: 机器学习:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P的度量,程序在处理任务T时的性能有所提升。 机器学习的两个常见问题:有监督学习和无监督学习 有监督学习:训练数据中每个输入都有对应的确定的输出(有标签)。有监督学习算法从训练集中学习到输入输出之间的 阅读全文
posted @ 2017-07-10 16:34 J_K_Guo 阅读(108) 评论(0) 推荐(0) 编辑