ArmRoundMan

博客园 首页 新随笔 联系 订阅 管理

一、损失(Loss)类型:

如果数据中特征值超过了一定范围,或者模型预测结果严重失真,这类特征值或结果被称为离群值【Re】。

二、梯度下降:

通过损失 曲线确【Re】定模型是否收敛【Re】。

线性模型的损失函数始终为面【Re】。

三、超参数

参数模型自己的(权重偏差,超参数是人为调控的。

  • 学习速率(Learning rate):每一iteration模型向梯度方向走多远。
  • 批次大小(Batch size):字面意思,一批包含的样本数量。最合适的取值取决于数据集和可用计算资源。

  两种训练方法:

  1.   stochastic gradient descent(SGD):批次大小为一,即每次只随机取一个样本计算梯度、更新模型参数。此方法极易产生大量噪声(体现在整条损失曲线上,不单单是临近收敛时,损失不降反增)
  2.        小批次随机梯度下降法:每次取一批样本计算梯度、更新模型参数。需要注意的是,在神经网络中,噪声可以帮助模型更好地泛化【Re】。

  处理完一批,更新一次参数。

  • 周期(Epoch):表示模型已(又)一次遍历处理训练集中的每个样本。例如,假设一个包含1,000个样本和100个样本的小批次大小的训练集,将对模型进行10次迭代(Iteration),完成一个周期。
posted on 2024-08-22 22:58  后生那各膊客圆了  阅读(2)  评论(0编辑  收藏  举报