摘要: 在梯度下降法中,批量指的是用于在单次迭代中计算梯度的样本总数。到目前为止,我们一直假定批量是指整个数据集。就 Google 的规模而言,数据集通常包含数十亿甚至数千亿个样本。此外,Google 数据集通常包含海量特征。因此,一个批量可能相当巨大。如果是超大批量,则单次迭代就可能要花费很长时间进行计算 阅读全文
posted @ 2018-03-02 19:59 透明的红萝卜 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 正如之前所述,梯度矢量具有方向和大小。梯度下降法算法用梯度乘以一个称为学习速率(有时也称为步长)的标量,以确定下一个点的位置。例如,如果梯度大小为 2.5,学习速率为 0.01,则梯度下降法算法会选择距离前一个点 0.025 的位置作为下一个点。 超参数是编程人员在机器学习算法中用于调整的旋钮。大多 阅读全文
posted @ 2018-03-02 19:33 透明的红萝卜 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 迭代方法图(图 1)包含一个标题为“计算参数更新”的华而不实的绿框。现在,我们将用更实质的方法代替这种华而不实的算法。 假设我们有时间和计算资源来计算 w1 的所有可能值的损失。对于我们一直在研究的回归问题,所产生的损失与 w1 的图形始终是凸形。换言之,图形始终是碗状图,如下所示: 图 2. 回归 阅读全文
posted @ 2018-03-02 19:29 透明的红萝卜 阅读(490) 评论(0) 推荐(0) 编辑
摘要: 迭代学习可能会让您想到“Hot and Cold”这种寻找隐藏物品(如顶针)的儿童游戏。在我们的游戏中,“隐藏的物品”就是最佳模型。刚开始,您会胡乱猜测(“w1 的值为 0。”),等待系统告诉您损失是多少。然后,您再尝试另一种猜测(“w1 的值为 0.5。”),看看损失是多少。哎呀,这次更接近目标了 阅读全文
posted @ 2018-03-02 17:46 透明的红萝卜 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 本文内容摘自 谷歌机器学习免费课程MLCC: https://developers.google.com/machine-learning/crash-course/ 什么是(监督式)机器学习?简单来说,它的定义如下: 机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。 下面我们 阅读全文
posted @ 2018-03-02 17:01 透明的红萝卜 阅读(172) 评论(0) 推荐(0) 编辑